Fugu-MT 論文翻訳(概要): On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey

論文の概要: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey

arxiv url: http://arxiv.org/abs/2408.04879v2
Date: Thu, 22 Aug 2024 09:04:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 18:36:08.927600
Title: On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey
Title（参考訳）: ゼロショット画像認識における要素幅表現と推論について:システム的調査
Authors: Jingcai Guo, Zhijie Rao, Zhi Chen, Song Guo, Jingren Zhou, Dacheng Tao,
Abstract要約: ゼロショット画像認識(ZSIR)は、目に見えない領域の認識と推論をモデルに与えることを目的としている。本稿では,近年の素子ワイドZSIRの進歩について概説する。まず、オブジェクト認識、合成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを、統一された要素的視点に統合する。
参考スコア（独自算出の注目度）: 82.49623756124357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-shot image recognition (ZSIR) aims at empowering models to recognize and reason in unseen domains via learning generalized knowledge from limited data in the seen domain. The gist for ZSIR is to execute element-wise representation and reasoning from the input visual space to the target semantic space, which is a bottom-up modeling paradigm inspired by the process by which humans observe the world, i.e., capturing new concepts by learning and combining the basic components or shared characteristics. In recent years, element-wise learning techniques have seen significant progress in ZSIR as well as widespread application. However, to the best of our knowledge, there remains a lack of a systematic overview of this topic. To enrich the literature and provide a sound basis for its future development, this paper presents a broad review of recent advances in element-wise ZSIR. Concretely, we first attempt to integrate the three basic ZSIR tasks of object recognition, compositional recognition, and foundation model-based open-world recognition into a unified element-wise perspective and provide a detailed taxonomy and analysis of the main research approaches. Then, we collect and summarize some key information and benchmarks, such as detailed technical implementations and common datasets. Finally, we sketch out the wide range of its related applications, discuss vital challenges, and suggest potential future directions.
Abstract（参考訳）: Zero-shot Image Recognition (ZSIR) は、目に見えない領域において、限られたデータから一般化された知識を学習することで、モデルに認識と推論の権限を与えることを目的としている。 ZSIRのギストは、入力された視覚空間から対象のセマンティック空間への要素ワイド表現と推論を実行することであり、これは人間が世界を観察する過程、すなわち、基本的な構成要素や共有特性を学習・組み合わせて新しい概念を捉えるプロセスにインスパイアされたボトムアップモデリングパラダイムである。近年、要素学習技術はZSIRや広範囲の応用において大きな進歩を遂げている。しかし、私たちの知る限りでは、このトピックの体系的な概要はいまだに残っていない。文献の充実と今後の発展のための健全な基盤を提供するため,本論文では,近年の要素ワイドZSIRの進歩を概観する。具体的には、まず、オブジェクト認識、構成認識、基礎モデルに基づくオープンワールド認識の3つの基本的なZSIRタスクを統一された要素的視点に統合し、主要な研究手法の詳細な分類と分析を行う。そして、詳細な技術実装や共通データセットなど、いくつかの重要な情報とベンチマークを収集し、まとめます。最後に、関連するアプリケーションの範囲を概観し、重要な課題について議論し、将来的な方向性を提案する。

関連論文リスト

Tutorial on Reasoning for IR & IR for Reasoning [43.22339935902436]
情報検索は長年,意味的関連性による文書のランク付けに重点を置いてきた。実世界の情報には、論理的制約の実施、多段階推論、複数の証拠の合成が必要である。 AIコミュニティ全体で、研究者は推論の問題に対するソリューションを開発している。
論文参考訳（メタデータ） (2026-02-03T15:24:36Z)
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文参考訳（メタデータ） (2025-09-23T12:00:14Z)
Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-08T09:43:17Z)
3D Skeleton-Based Action Recognition: A Review [60.0580120274659]
3Dスケルトンに基づく行動認識は、コンピュータビジョンの分野において顕著な話題となっている。以前のレビューでは主にモデル指向の視点を採用しており、しばしば骨格に基づく行動認識に関わる基本的なステップを無視している。本稿では,骨格に基づく行動認識を理解するための包括的,タスク指向のフレームワークを提案することによって,これらの制約に対処することを目的とする。
論文参考訳（メタデータ） (2025-06-01T09:04:12Z)
Place Recognition Meet Multiple Modalitie: A Comprehensive Review, Current Challenges and Future Directions [2.4775350526606355]
位置認識の最近の進歩を概観し,3つの方法論的パラダイムを強調した。 CNNベースのアプローチ、トランスフォーマーベースのフレームワーク、およびクロスモーダル戦略について議論する。我々は現在の研究課題を特定し、ドメイン適応、リアルタイムパフォーマンス、生涯学習を含む今後の方向性を概説し、この領域の今後の進歩を刺激する。
論文参考訳（メタデータ） (2025-05-20T08:16:37Z)
MIRAGE: A Multi-modal Benchmark for Spatial Perception, Reasoning, and Intelligence [14.694404760882986]
MIRAGEは、Counting(オブジェクト属性認識)、Relation(空間リレーショナル推論)、Counting with Relationにおけるモデルの能力を評価するために設計されたベンチマークである。これらの基礎的能力をターゲットにして、MIRAGEは将来の研究における時間的推論に向けた空間認識への道筋を提供する。
論文参考訳（メタデータ） (2025-05-15T16:08:14Z)
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-23T10:33:28Z)
Open World Object Detection: A Survey [16.839310066730533]
オープンワールドオブジェクト検出(OWOD)は、この原則を適用して新しい知識を探求する、新たな研究分野である。本稿では、OWODドメインの徹底的なレビューを行い、問題定義、ベンチマークデータセット、ソースコード、評価指標、既存手法の比較研究など、基本的な側面について述べる。本稿では,現在のOWODアルゴリズムが直面する限界と課題に対処し,今後の研究の方向性を提案する。
論文参考訳（メタデータ） (2024-10-15T05:46:00Z)
Discovering Conceptual Knowledge with Analytic Ontology Templates for Articulated Objects [42.9186628100765]
我々は,概念レベルでの動作を通じて,機械知能に類似の能力を持たせることを目指している。 AOT駆動のアプローチは、3つの重要な観点で利益をもたらす。
論文参考訳（メタデータ） (2024-09-18T04:53:38Z)
Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。最近の傾向は、これらの2つの分野の潜在的均一性を示している。本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文参考訳（メタデータ） (2024-07-01T07:05:44Z)
On the Role of Entity and Event Level Conceptualization in Generalizable Reasoning: A Survey of Tasks, Methods, Applications, and Future Directions [46.63556358247516]
エンティティとイベントレベルの概念化は、一般化可能な推論において重要な役割を果たす。現在、概念化の定義、実行、適用に関する既存の研究を包括的に調べる体系的な概要が欠如している。本稿では,150以上の論文を総合的に調査し,概念化に関連する様々な定義,資源,方法,下流のアプリケーションを統一分類に分類する。
論文参考訳（メタデータ） (2024-06-16T10:32:41Z)
Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。 ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文参考訳（メタデータ） (2024-06-03T12:12:33Z)
Less is More: Toward Zero-Shot Local Scene Graph Generation via Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文参考訳（メタデータ） (2023-10-02T17:19:04Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
Towards Data-and Knowledge-Driven Artificial Intelligence: A Survey on Neuro-Symbolic Computing [73.0977635031713]
ニューラルシンボリック・コンピューティング(NeSy)は、人工知能(AI)の活発な研究領域である。 NeSyは、ニューラルネットワークにおける記号表現の推論と解釈可能性の利点と堅牢な学習の整合性を示す。
論文参考訳（メタデータ） (2022-10-28T04:38:10Z)
Knowledge Graph Augmented Network Towards Multiview Representation Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。 KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。 3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文参考訳（メタデータ） (2022-01-13T08:25:53Z)
Place recognition survey: An update on deep learning approaches [0.6352264764099531]
本稿では,場所認識における最近の手法,特に深層学習に基づく手法について検討する。この研究の貢献は2つある: 位置認識に適用された3D LiDARやRADARといった最近のセンサーを調査する。この調査は、さまざまなDLベースの作業について検討し、各フレームワークの要約を提示します。
論文参考訳（メタデータ） (2021-06-19T09:17:15Z)
Deep Gait Recognition: A Survey [15.47582611826366]
歩行認識は、歩き方に基づいて個人を識別することを目的とした魅力的な生体測定モダリティです。ディープラーニングは、差別的な表現を自動的に学習する能力によって、2015年からこの分野の研究環境を再構築した。深層学習による歩行認識のブレークスルーと最近の展開を総合的に紹介します。
論文参考訳（メタデータ） (2021-02-18T18:49:28Z)
Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文参考訳（メタデータ） (2020-01-13T12:49:22Z)
A Review on Intelligent Object Perception Methods Combining Knowledge-based Reasoning and Machine Learning [60.335974351919816]
物体知覚はコンピュータビジョンの基本的なサブフィールドである。最近の研究は、物体の視覚的解釈のインテリジェンスレベルを拡大するために、知識工学を統合する方法を模索している。
論文参考訳（メタデータ） (2019-12-26T13:26:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。