論文の概要: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
- arxiv url: http://arxiv.org/abs/2408.04879v3
- Date: Tue, 26 Nov 2024 10:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:23.239673
- Title: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
- Title(参考訳): ゼロショット画像認識における要素幅表現と推論について:システム的調査
- Authors: Jingcai Guo, Zhijie Rao, Zhi Chen, Song Guo, Jingren Zhou, Dacheng Tao,
- Abstract要約: ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。
本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
- 参考スコア(独自算出の注目度): 82.49623756124357
- License:
- Abstract: Zero-shot image recognition (ZSIR) aims to recognize and reason in unseen domains by learning generalized knowledge from limited data in the seen domain. The gist of ZSIR is constructing a well-aligned mapping between the input visual space and the target semantic space, which is a bottom-up paradigm inspired by the process by which humans observe the world. In recent years, ZSIR has witnessed significant progress on a broad spectrum, from theory to algorithm design, as well as widespread applications. However, to the best of our knowledge, there remains a lack of a systematic review of ZSIR from an element-wise perspective, i.e., learning fine-grained elements of data and their inferential associations. To fill the gap, this paper thoroughly investigates recent advances in element-wise ZSIR and provides a sound basis for its future development. Concretely, we first integrate three basic ZSIR tasks, i.e., object recognition, compositional recognition, and foundation model-based open-world recognition, into a unified element-wise paradigm and provide a detailed taxonomy and analysis of the main approaches. Next, we summarize the benchmarks, covering technical implementations, standardized datasets, and some more details as a library. Last, we sketch out related applications, discuss vital challenges, and suggest potential future directions.
- Abstract(参考訳): ゼロショット画像認識(ZSIR)は、目に見えない領域における限られたデータから一般化された知識を学習することで認識し、推論することを目的としている。
ZSIRのギストは、入力された視覚空間と対象のセマンティック空間との整合性のあるマッピングを構築しており、これは人間が世界を見るプロセスに触発されたボトムアップパラダイムである。
近年、ZSIRは理論からアルゴリズム設計まで幅広い分野で大きな進歩を遂げている。
しかし、我々の知る限りでは、ZSIRの要素的視点、すなわちデータのきめ細かい要素とその推論関連を学習する体系的なレビューは残っていない。
このギャップを埋めるため,素子ワイドZSIRの最近の進歩を徹底的に調査し,今後の発展のための健全な基盤を提供する。
具体的には、まず、オブジェクト認識、構成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを統一された要素ワイドパラダイムに統合し、主要なアプローチの詳細な分類と分析を行う。
次に、ベンチマークを要約し、技術的な実装、標準化されたデータセット、およびライブラリとしての詳細について説明する。
最後に、関連するアプリケーションをスケッチし、重要な課題について議論し、将来的な方向性を提案する。
関連論文リスト
- SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
これらの結果は、既存のモデルにおいて重要な盲点を明らかにし、より高度な空間推論技術の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Open World Object Detection: A Survey [16.839310066730533]
オープンワールドオブジェクト検出(OWOD)は、この原則を適用して新しい知識を探求する、新たな研究分野である。
本稿では、OWODドメインの徹底的なレビューを行い、問題定義、ベンチマークデータセット、ソースコード、評価指標、既存手法の比較研究など、基本的な側面について述べる。
本稿では,現在のOWODアルゴリズムが直面する限界と課題に対処し,今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2024-10-15T05:46:00Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Place recognition survey: An update on deep learning approaches [0.6352264764099531]
本稿では,場所認識における最近の手法,特に深層学習に基づく手法について検討する。
この研究の貢献は2つある: 位置認識に適用された3D LiDARやRADARといった最近のセンサーを調査する。
この調査は、さまざまなDLベースの作業について検討し、各フレームワークの要約を提示します。
論文 参考訳(メタデータ) (2021-06-19T09:17:15Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。