論文の概要: Saliency-Aware Automatic Buddhas Statue Recognition
- arxiv url: http://arxiv.org/abs/2402.16980v1
- Date: Mon, 26 Feb 2024 19:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:54:23.736344
- Title: Saliency-Aware Automatic Buddhas Statue Recognition
- Title(参考訳): セイリエンシーアウェア自動仏像認識
- Authors: Yong Qi, Fanghan Zhao
- Abstract要約: 本稿では,サリエンシマップのサンプリングに基づくエンドツーエンドの自動仏像認識モデルを提案する。
本モデルは,仏教専門家の助けを借りて収集した仏のデータセットを用いて評価し,トップ1の精度を平均4.63%向上させる。
- 参考スコア(独自算出の注目度): 5.561398385399928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Buddha statues, as a symbol of many religions, have significant cultural
implications that are crucial for understanding the culture and history of
different regions, and the recognition of Buddha statues is therefore the
pivotal link in the field of Buddha study. However, the Buddha statue
recognition requires extensive time and effort from knowledgeable
professionals, making it a costly task to perform. Convolution neural networks
(CNNs) are inherently efficient at processing visual information, but CNNs
alone are likely to make inaccurate classification decisions when subjected to
the class imbalance problem. Therefore, this paper proposes an end-to-end
automatic Buddha statue recognition model based on saliency map sampling. The
proposed Grid-Wise Local Self-Attention Module (GLSA) provides extra salient
features which can serve to enrich the dataset and allow CNNs to observe in a
much more comprehensive way. Eventually, our model is evaluated on a Buddha
dataset collected with the aid of Buddha experts and outperforms
state-of-the-art networks in terms of Top-1 accuracy by 4.63\% on average,
while only marginally increasing MUL-ADD.
- Abstract(参考訳): 多くの宗教の象徴である仏像は、異なる地域の文化や歴史を理解する上で重要な文化的意味合いを有しており、仏像の認識は仏学の分野において重要な関連点となっている。
しかし、仏像の認識には知識のある専門家の膨大な時間と労力が要し、演奏に要する費用がかかる。
畳み込みニューラルネットワーク(CNN)は、視覚情報を処理する上で本質的に効率的であるが、クラス不均衡の問題に直面すると、CNN単独で不正確な分類決定を行う可能性が高い。
そこで本稿では,サリエンシマップのサンプリングに基づくエンドツーエンドの自動仏像認識モデルを提案する。
提案されているGrid-Wise Local Self-Attention Module (GLSA)は、データセットを充実させ、CNNがより包括的な方法で観察できるような、より詳細な機能を提供する。
最終的には,仏の専門家の支援を得て収集したブッダデータセット上で評価を行い,mul-addをわずかに増加させながら,top-1の精度を平均4.63\%向上させた。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Visibility-Aware Keypoint Localization for 6DoF Object Pose Estimation [56.07676459156789]
2次元画像における3Dキーポイントの局所化は、6DoFオブジェクトのポーズ推定のための3D-2D対応を確立する効果的な方法である。
本稿では、重要なキーポイントを可視性の観点からローカライズすることでこの問題に対処する。
我々は、可視性を考慮した重要度と最先端のポーズ推定アルゴリズムを統合することにより、VAPO(Visibility-Aware POse estimator)を構築する。
論文 参考訳(メタデータ) (2024-03-21T16:59:45Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Built Year Prediction from Buddha Face with Heterogeneous Labels [25.24554456144187]
我々は、顔画像のみに基づいて、建立された仏像の年数を自動的に推定するニューラルネットワークモデルを構築した。
提案手法は,テストセット上での平均絶対誤差が37.5年ある画像に対して,構築年を推定することができる。
論文 参考訳(メタデータ) (2021-09-02T09:42:52Z) - Noisy Student Training using Body Language Dataset Improves Facial
Expression Recognition [10.529781894367877]
本稿では,ラベル付きデータセットと非ラベル付きデータセットを組み合わせた自己学習手法を提案する。
実験分析により,ノイズの多い学生ネットワークを反復的にトレーニングすることで,より優れた結果が得られることが示された。
提案手法は,ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-08-06T13:45:52Z) - Hallucinating Saliency Maps for Fine-Grained Image Classification for
Limited Data Domains [27.91871214060683]
画像分類を改善するために,明示的なサリエンシマップを必要としないアプローチを提案する。
提案手法は,サリエンシマップを明示的に提供した場合と同じような結果が得られることを示す。
また,サリエンシ基盤データなしでトレーニングされたサリエンシ推定手法は,実画像サリエンシベンチマーク(Toronto)において競合する結果が得られることを示した。
論文 参考訳(メタデータ) (2020-07-24T15:08:55Z) - Teaching CNNs to mimic Human Visual Cognitive Process & regularise
Texture-Shape bias [18.003188982585737]
コンピュータビジョンにおける最近の実験は、畳み込みニューラルネットワーク(CNN)を用いたモデルにおいて、テクスチャバイアスが最高の結果の主因であることを実証している。
コスト関数は、CNNが欲張りなアプローチを採り、テクスチャのような局所的な情報に対する生産性を向上させ、その結果、グローバルな統計を探索することができないと信じられている。
画像の再構成と分類に形状,テクスチャ,エッジなどの人間の解釈可能な特徴を活用するために,心理学における特徴統合理論から着想を得た,新しい直感的なアーキテクチャであるCognitiveCNNを提案する。
論文 参考訳(メタデータ) (2020-06-25T22:32:54Z) - Ensembles of Deep Neural Networks for Action Recognition in Still Images [3.7900158137749336]
本稿では,大量のラベル付き行動認識データセットの欠如に対処するための伝達学習手法を提案する。
フレームワークには8つのトレーニング済みのCNNも使用して、Stanford 40データセットのパフォーマンスを調査しています。
我々の手法の最良の設定は、スタンフォード40データセットで93.17$%の精度を達成することができる。
論文 参考訳(メタデータ) (2020-03-22T13:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。