論文の概要: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
- arxiv url: http://arxiv.org/abs/2408.04879v2
- Date: Thu, 22 Aug 2024 09:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:36:08.927600
- Title: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
- Title(参考訳): ゼロショット画像認識における要素幅表現と推論について:システム的調査
- Authors: Jingcai Guo, Zhijie Rao, Zhi Chen, Song Guo, Jingren Zhou, Dacheng Tao,
- Abstract要約: ゼロショット画像認識(ZSIR)は、目に見えない領域の認識と推論をモデルに与えることを目的としている。
本稿では,近年の素子ワイドZSIRの進歩について概説する。
まず、オブジェクト認識、合成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを、統一された要素的視点に統合する。
- 参考スコア(独自算出の注目度): 82.49623756124357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot image recognition (ZSIR) aims at empowering models to recognize and reason in unseen domains via learning generalized knowledge from limited data in the seen domain. The gist for ZSIR is to execute element-wise representation and reasoning from the input visual space to the target semantic space, which is a bottom-up modeling paradigm inspired by the process by which humans observe the world, i.e., capturing new concepts by learning and combining the basic components or shared characteristics. In recent years, element-wise learning techniques have seen significant progress in ZSIR as well as widespread application. However, to the best of our knowledge, there remains a lack of a systematic overview of this topic. To enrich the literature and provide a sound basis for its future development, this paper presents a broad review of recent advances in element-wise ZSIR. Concretely, we first attempt to integrate the three basic ZSIR tasks of object recognition, compositional recognition, and foundation model-based open-world recognition into a unified element-wise perspective and provide a detailed taxonomy and analysis of the main research approaches. Then, we collect and summarize some key information and benchmarks, such as detailed technical implementations and common datasets. Finally, we sketch out the wide range of its related applications, discuss vital challenges, and suggest potential future directions.
- Abstract(参考訳): Zero-shot Image Recognition (ZSIR) は、目に見えない領域において、限られたデータから一般化された知識を学習することで、モデルに認識と推論の権限を与えることを目的としている。
ZSIRのギストは、入力された視覚空間から対象のセマンティック空間への要素ワイド表現と推論を実行することであり、これは人間が世界を観察する過程、すなわち、基本的な構成要素や共有特性を学習・組み合わせて新しい概念を捉えるプロセスにインスパイアされたボトムアップモデリングパラダイムである。
近年、要素学習技術はZSIRや広範囲の応用において大きな進歩を遂げている。
しかし、私たちの知る限りでは、このトピックの体系的な概要はいまだに残っていない。
文献の充実と今後の発展のための健全な基盤を提供するため,本論文では,近年の要素ワイドZSIRの進歩を概観する。
具体的には、まず、オブジェクト認識、構成認識、基礎モデルに基づくオープンワールド認識の3つの基本的なZSIRタスクを統一された要素的視点に統合し、主要な研究手法の詳細な分類と分析を行う。
そして、詳細な技術実装や共通データセットなど、いくつかの重要な情報とベンチマークを収集し、まとめます。
最後に、関連するアプリケーションの範囲を概観し、重要な課題について議論し、将来的な方向性を提案する。
関連論文リスト
- Open World Object Detection: A Survey [16.839310066730533]
オープンワールドオブジェクト検出(OWOD)は、この原則を適用して新しい知識を探求する、新たな研究分野である。
本稿では、OWODドメインの徹底的なレビューを行い、問題定義、ベンチマークデータセット、ソースコード、評価指標、既存手法の比較研究など、基本的な側面について述べる。
本稿では,現在のOWODアルゴリズムが直面する限界と課題に対処し,今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2024-10-15T05:46:00Z) - Discovering Conceptual Knowledge with Analytic Ontology Templates for Articulated Objects [42.9186628100765]
我々は,概念レベルでの動作を通じて,機械知能に類似の能力を持たせることを目指している。
AOT駆動のアプローチは、3つの重要な観点で利益をもたらす。
論文 参考訳(メタデータ) (2024-09-18T04:53:38Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - On the Role of Entity and Event Level Conceptualization in Generalizable Reasoning: A Survey of Tasks, Methods, Applications, and Future Directions [46.63556358247516]
エンティティとイベントレベルの概念化は、一般化可能な推論において重要な役割を果たす。
現在、概念化の定義、実行、適用に関する既存の研究を包括的に調べる体系的な概要が欠如している。
本稿では,150以上の論文を総合的に調査し,概念化に関連する様々な定義,資源,方法,下流のアプリケーションを統一分類に分類する。
論文 参考訳(メタデータ) (2024-06-16T10:32:41Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Towards Data-and Knowledge-Driven Artificial Intelligence: A Survey on Neuro-Symbolic Computing [73.0977635031713]
ニューラルシンボリック・コンピューティング(NeSy)は、人工知能(AI)の活発な研究領域である。
NeSyは、ニューラルネットワークにおける記号表現の推論と解釈可能性の利点と堅牢な学習の整合性を示す。
論文 参考訳(メタデータ) (2022-10-28T04:38:10Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Deep Gait Recognition: A Survey [15.47582611826366]
歩行認識は、歩き方に基づいて個人を識別することを目的とした魅力的な生体測定モダリティです。
ディープラーニングは、差別的な表現を自動的に学習する能力によって、2015年からこの分野の研究環境を再構築した。
深層学習による歩行認識のブレークスルーと最近の展開を総合的に紹介します。
論文 参考訳(メタデータ) (2021-02-18T18:49:28Z) - A Review on Intelligent Object Perception Methods Combining
Knowledge-based Reasoning and Machine Learning [60.335974351919816]
物体知覚はコンピュータビジョンの基本的なサブフィールドである。
最近の研究は、物体の視覚的解釈のインテリジェンスレベルを拡大するために、知識工学を統合する方法を模索している。
論文 参考訳(メタデータ) (2019-12-26T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。