論文の概要: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
- arxiv url: http://arxiv.org/abs/2408.04879v3
- Date: Tue, 26 Nov 2024 10:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:23.239673
- Title: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
- Title(参考訳): ゼロショット画像認識における要素幅表現と推論について:システム的調査
- Authors: Jingcai Guo, Zhijie Rao, Zhi Chen, Song Guo, Jingren Zhou, Dacheng Tao,
- Abstract要約: ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。
本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
- 参考スコア(独自算出の注目度): 82.49623756124357
- License:
- Abstract: Zero-shot image recognition (ZSIR) aims to recognize and reason in unseen domains by learning generalized knowledge from limited data in the seen domain. The gist of ZSIR is constructing a well-aligned mapping between the input visual space and the target semantic space, which is a bottom-up paradigm inspired by the process by which humans observe the world. In recent years, ZSIR has witnessed significant progress on a broad spectrum, from theory to algorithm design, as well as widespread applications. However, to the best of our knowledge, there remains a lack of a systematic review of ZSIR from an element-wise perspective, i.e., learning fine-grained elements of data and their inferential associations. To fill the gap, this paper thoroughly investigates recent advances in element-wise ZSIR and provides a sound basis for its future development. Concretely, we first integrate three basic ZSIR tasks, i.e., object recognition, compositional recognition, and foundation model-based open-world recognition, into a unified element-wise paradigm and provide a detailed taxonomy and analysis of the main approaches. Next, we summarize the benchmarks, covering technical implementations, standardized datasets, and some more details as a library. Last, we sketch out related applications, discuss vital challenges, and suggest potential future directions.
- Abstract(参考訳): ゼロショット画像認識(ZSIR)は、目に見えない領域における限られたデータから一般化された知識を学習することで認識し、推論することを目的としている。
ZSIRのギストは、入力された視覚空間と対象のセマンティック空間との整合性のあるマッピングを構築しており、これは人間が世界を見るプロセスに触発されたボトムアップパラダイムである。
近年、ZSIRは理論からアルゴリズム設計まで幅広い分野で大きな進歩を遂げている。
しかし、我々の知る限りでは、ZSIRの要素的視点、すなわちデータのきめ細かい要素とその推論関連を学習する体系的なレビューは残っていない。
このギャップを埋めるため,素子ワイドZSIRの最近の進歩を徹底的に調査し,今後の発展のための健全な基盤を提供する。
具体的には、まず、オブジェクト認識、構成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを統一された要素ワイドパラダイムに統合し、主要なアプローチの詳細な分類と分析を行う。
次に、ベンチマークを要約し、技術的な実装、標準化されたデータセット、およびライブラリとしての詳細について説明する。
最後に、関連するアプリケーションをスケッチし、重要な課題について議論し、将来的な方向性を提案する。
関連論文リスト
- Open World Object Detection: A Survey [16.839310066730533]
オープンワールドオブジェクト検出(OWOD)は、この原則を適用して新しい知識を探求する、新たな研究分野である。
本稿では、OWODドメインの徹底的なレビューを行い、問題定義、ベンチマークデータセット、ソースコード、評価指標、既存手法の比較研究など、基本的な側面について述べる。
本稿では,現在のOWODアルゴリズムが直面する限界と課題に対処し,今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2024-10-15T05:46:00Z) - Discovering Conceptual Knowledge with Analytic Ontology Templates for Articulated Objects [42.9186628100765]
我々は,概念レベルでの動作を通じて,機械知能に類似の能力を持たせることを目指している。
AOT駆動のアプローチは、3つの重要な観点で利益をもたらす。
論文 参考訳(メタデータ) (2024-09-18T04:53:38Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - On the Role of Entity and Event Level Conceptualization in Generalizable Reasoning: A Survey of Tasks, Methods, Applications, and Future Directions [46.63556358247516]
エンティティとイベントレベルの概念化は、一般化可能な推論において重要な役割を果たす。
現在、概念化の定義、実行、適用に関する既存の研究を包括的に調べる体系的な概要が欠如している。
本稿では,150以上の論文を総合的に調査し,概念化に関連する様々な定義,資源,方法,下流のアプリケーションを統一分類に分類する。
論文 参考訳(メタデータ) (2024-06-16T10:32:41Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Towards Data-and Knowledge-Driven Artificial Intelligence: A Survey on Neuro-Symbolic Computing [73.0977635031713]
ニューラルシンボリック・コンピューティング(NeSy)は、人工知能(AI)の活発な研究領域である。
NeSyは、ニューラルネットワークにおける記号表現の推論と解釈可能性の利点と堅牢な学習の整合性を示す。
論文 参考訳(メタデータ) (2022-10-28T04:38:10Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Deep Gait Recognition: A Survey [15.47582611826366]
歩行認識は、歩き方に基づいて個人を識別することを目的とした魅力的な生体測定モダリティです。
ディープラーニングは、差別的な表現を自動的に学習する能力によって、2015年からこの分野の研究環境を再構築した。
深層学習による歩行認識のブレークスルーと最近の展開を総合的に紹介します。
論文 参考訳(メタデータ) (2021-02-18T18:49:28Z) - A Review on Intelligent Object Perception Methods Combining
Knowledge-based Reasoning and Machine Learning [60.335974351919816]
物体知覚はコンピュータビジョンの基本的なサブフィールドである。
最近の研究は、物体の視覚的解釈のインテリジェンスレベルを拡大するために、知識工学を統合する方法を模索している。
論文 参考訳(メタデータ) (2019-12-26T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。