論文の概要: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
- arxiv url: http://arxiv.org/abs/2408.04879v2
- Date: Thu, 22 Aug 2024 09:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:36:08.927600
- Title: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
- Title(参考訳): ゼロショット画像認識における要素幅表現と推論について:システム的調査
- Authors: Jingcai Guo, Zhijie Rao, Zhi Chen, Song Guo, Jingren Zhou, Dacheng Tao,
- Abstract要約: ゼロショット画像認識(ZSIR)は、目に見えない領域の認識と推論をモデルに与えることを目的としている。
本稿では,近年の素子ワイドZSIRの進歩について概説する。
まず、オブジェクト認識、合成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを、統一された要素的視点に統合する。
- 参考スコア(独自算出の注目度): 82.49623756124357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot image recognition (ZSIR) aims at empowering models to recognize and reason in unseen domains via learning generalized knowledge from limited data in the seen domain. The gist for ZSIR is to execute element-wise representation and reasoning from the input visual space to the target semantic space, which is a bottom-up modeling paradigm inspired by the process by which humans observe the world, i.e., capturing new concepts by learning and combining the basic components or shared characteristics. In recent years, element-wise learning techniques have seen significant progress in ZSIR as well as widespread application. However, to the best of our knowledge, there remains a lack of a systematic overview of this topic. To enrich the literature and provide a sound basis for its future development, this paper presents a broad review of recent advances in element-wise ZSIR. Concretely, we first attempt to integrate the three basic ZSIR tasks of object recognition, compositional recognition, and foundation model-based open-world recognition into a unified element-wise perspective and provide a detailed taxonomy and analysis of the main research approaches. Then, we collect and summarize some key information and benchmarks, such as detailed technical implementations and common datasets. Finally, we sketch out the wide range of its related applications, discuss vital challenges, and suggest potential future directions.
- Abstract(参考訳): Zero-shot Image Recognition (ZSIR) は、目に見えない領域において、限られたデータから一般化された知識を学習することで、モデルに認識と推論の権限を与えることを目的としている。
ZSIRのギストは、入力された視覚空間から対象のセマンティック空間への要素ワイド表現と推論を実行することであり、これは人間が世界を観察する過程、すなわち、基本的な構成要素や共有特性を学習・組み合わせて新しい概念を捉えるプロセスにインスパイアされたボトムアップモデリングパラダイムである。
近年、要素学習技術はZSIRや広範囲の応用において大きな進歩を遂げている。
しかし、私たちの知る限りでは、このトピックの体系的な概要はいまだに残っていない。
文献の充実と今後の発展のための健全な基盤を提供するため,本論文では,近年の要素ワイドZSIRの進歩を概観する。
具体的には、まず、オブジェクト認識、構成認識、基礎モデルに基づくオープンワールド認識の3つの基本的なZSIRタスクを統一された要素的視点に統合し、主要な研究手法の詳細な分類と分析を行う。
そして、詳細な技術実装や共通データセットなど、いくつかの重要な情報とベンチマークを収集し、まとめます。
最後に、関連するアプリケーションの範囲を概観し、重要な課題について議論し、将来的な方向性を提案する。
関連論文リスト
- SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
これらの結果は、既存のモデルにおいて重要な盲点を明らかにし、より高度な空間推論技術の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Open World Object Detection: A Survey [16.839310066730533]
オープンワールドオブジェクト検出(OWOD)は、この原則を適用して新しい知識を探求する、新たな研究分野である。
本稿では、OWODドメインの徹底的なレビューを行い、問題定義、ベンチマークデータセット、ソースコード、評価指標、既存手法の比較研究など、基本的な側面について述べる。
本稿では,現在のOWODアルゴリズムが直面する限界と課題に対処し,今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2024-10-15T05:46:00Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Place recognition survey: An update on deep learning approaches [0.6352264764099531]
本稿では,場所認識における最近の手法,特に深層学習に基づく手法について検討する。
この研究の貢献は2つある: 位置認識に適用された3D LiDARやRADARといった最近のセンサーを調査する。
この調査は、さまざまなDLベースの作業について検討し、各フレームワークの要約を提示します。
論文 参考訳(メタデータ) (2021-06-19T09:17:15Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。