論文の概要: Reasoning in Computer Vision: Taxonomy, Models, Tasks, and Methodologies
- arxiv url: http://arxiv.org/abs/2508.10523v1
- Date: Thu, 14 Aug 2025 10:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.277474
- Title: Reasoning in Computer Vision: Taxonomy, Models, Tasks, and Methodologies
- Title(参考訳): コンピュータビジョンにおける推論:分類学、モデル、課題、方法論
- Authors: Ayushman Sarkar, Mohd Yamani Idna Idris, Zhenyu Yu,
- Abstract要約: 本調査は,視覚的推論を5つの主要なタイプ(関係性,象徴性,時間性,因果性,共通性)に分類することを目的とする。
機能的正当性,構造的整合性,因果妥当性を評価し,その限界を一般化可能性,説明力の観点から批判的に分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual reasoning is critical for a wide range of computer vision tasks that go beyond surface-level object detection and classification. Despite notable advances in relational, symbolic, temporal, causal, and commonsense reasoning, existing surveys often address these directions in isolation, lacking a unified analysis and comparison across reasoning types, methodologies, and evaluation protocols. This survey aims to address this gap by categorizing visual reasoning into five major types (relational, symbolic, temporal, causal, and commonsense) and systematically examining their implementation through architectures such as graph-based models, memory networks, attention mechanisms, and neuro-symbolic systems. We review evaluation protocols designed to assess functional correctness, structural consistency, and causal validity, and critically analyze their limitations in terms of generalizability, reproducibility, and explanatory power. Beyond evaluation, we identify key open challenges in visual reasoning, including scalability to complex scenes, deeper integration of symbolic and neural paradigms, the lack of comprehensive benchmark datasets, and reasoning under weak supervision. Finally, we outline a forward-looking research agenda for next-generation vision systems, emphasizing that bridging perception and reasoning is essential for building transparent, trustworthy, and cross-domain adaptive AI systems, particularly in critical domains such as autonomous driving and medical diagnostics.
- Abstract(参考訳): 視覚的推論は、表面レベルのオブジェクト検出と分類を超えた幅広いコンピュータビジョンタスクにとって重要である。
リレーショナル、シンボリック、テンポラル、因果、コモンセンス推論の顕著な進歩にもかかわらず、既存の調査はしばしばこれらの方向を個別に扱い、推論タイプ、方法論、評価プロトコルをまたいだ統一的な分析と比較を欠いている。
本調査は,視覚的推論を5つの主要なタイプ(関係性,象徴性,時間的,因果性,常識)に分類し,その実装をグラフベースモデル,メモリネットワーク,注意機構,ニューロシンボリックシステムなどのアーキテクチャを通じて体系的に検証することによって,このギャップに対処することを目的とする。
機能的正当性,構造的整合性,因果妥当性を評価し,その限界を一般化性,再現性,説明力の観点から批判的に分析する。
評価以外にも、複雑なシーンへのスケーラビリティ、シンボリックパラダイムとニューラルパラダイムのより深い統合、包括的なベンチマークデータセットの欠如、弱い監視下での推論など、視覚的推論における重要なオープンな課題を特定します。
最後に、次世代ビジョンシステムに関する先進的な研究課題を概説し、特に自律運転や医療診断などの重要な領域において、透明性、信頼性、ドメイン間適応型AIシステムを構築する上で、ブリッジングの認識と推論が不可欠であることを強調する。
関連論文リスト
- Hyperspectral Imaging [49.45523645429475]
ハイパースペクトルイメージング(Hyperspectral Imaging、HSI)は、空間情報とスペクトル情報を同時にキャプチャする高度なセンシングモダリティである。
このプライマーは、基礎となる物理原理とセンサーアーキテクチャから、データ取得、キャリブレーション、修正における重要なステップまで、HSIの概要を包括的に示す。
論文 参考訳(メタデータ) (2025-08-11T15:47:24Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - MIRAGE: A Multi-modal Benchmark for Spatial Perception, Reasoning, and Intelligence [14.694404760882986]
MIRAGEは、Counting(オブジェクト属性認識)、Relation(空間リレーショナル推論)、Counting with Relationにおけるモデルの能力を評価するために設計されたベンチマークである。
これらの基礎的能力をターゲットにして、MIRAGEは将来の研究における時間的推論に向けた空間認識への道筋を提供する。
論文 参考訳(メタデータ) (2025-05-15T16:08:14Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Fairness Indicators for Systematic Assessments of Visual Feature
Extractors [21.141633753573764]
視覚系の害やバイアスの定量化を目的とした3つの公正度指標を提案する。
我々の指標は、フェアネス評価のために収集された既存の公開データセットを使用する。
これらの指標は、新しいコンピュータビジョン技術による幅広い影響の徹底的な分析の代替にはならない。
論文 参考訳(メタデータ) (2022-02-15T17:45:33Z) - Automatic Gaze Analysis: A Survey of DeepLearning based Approaches [61.32686939754183]
視線分析はコンピュータビジョンとヒューマン・コンピュータ・インタラクションの分野で重要な研究課題である。
制約のない環境で視線方向を解釈するための重要な手がかりは何か、いくつかのオープンな質問がある。
我々は、これらの基本的な疑問に光を当てるために、様々な視線分析タスクと応用の進捗を概観する。
論文 参考訳(メタデータ) (2021-08-12T00:30:39Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。