論文の概要: Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding
- arxiv url: http://arxiv.org/abs/2603.03762v1
- Date: Wed, 04 Mar 2026 06:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.19866
- Title: Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding
- Title(参考訳): 専門家がする: オープンセットの細粒度視覚理解のための知識強化エージェント
- Authors: Junhan Chen, Zilu Zhou, Yujun Tong, Dongliang Chang, Yitao Luo, Zhanyu Ma,
- Abstract要約: KFRA(Knowledge-Augmented Fine-Grained Reasoning Agent)について紹介する。
KFRAは、専門家分析をエミュレートする3段階のクローズド推論ループを通している。
まずオープン語彙の検出とWebスケールの検索を行い、カテゴリ仮説を生成する。
その後、テキスト知識を視覚的証拠と整合させることにより、識別領域のローカライゼーションを行う。
- 参考スコア(独自算出の注目度): 30.498502211349386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained visual understanding is shifting from static classification to knowledge-augmented reasoning, where models must justify as well as recognise. Existing approaches remain limited by closed-set taxonomies and single-label prediction, leading to significant degradation under open-set or context-dependent conditions. We present the Knowledge-Augmented Fine-Grained Reasoning Agent (KFRA), a unified framework that transforms fine-grained perception into evidence-driven reasoning. KFRA operates through a three-stage closed reasoning loop that emulates expert analysis. It first performs open-vocabulary detection and web-scale retrieval to generate category hypotheses. It then conducts discriminative regions localisation by aligning textual knowledge with visual evidence through a global-to-local focusing mechanism. Finally, it integrates all multimodal evidence within a large multimodal model to perform interpretable reasoning. Unlike existing agents that treat retrieval and reasoning as independent processes, KFRA establishes a retrieval-grounding coupling that converts retrieved knowledge into spatially grounded evidence for verification. This design enables factual, interpretable, and task-agnostic reasoning across diverse fine-grained scenarios. To evaluate this capability, we construct FGExpertBench, a benchmark designed to assess reasoning depth and cross-task generalisation across six knowledge dimensions. Extensive experiments demonstrate that KFRA consistently surpasses both standalone large multimodal models and current agent frameworks, achieving up to 19 percent improvement in reasoning accuracy and delivering evidence-grounded interpretability in open-set fine-grained visual understanding.
- Abstract(参考訳): きめ細かい視覚的理解は、静的な分類から知識を付加した推論へとシフトしている。
既存のアプローチは、クローズドセットの分類学とシングルラベルの予測によって制限され、オープンセットや文脈依存の条件下では著しく劣化する。
我々は, きめ細かい知覚をエビデンス駆動推論に変換する統合フレームワークKFRAを提案する。
KFRAは、専門家分析をエミュレートする3段階のクローズド推論ループを通している。
まずオープン語彙の検出とWebスケールの検索を行い、カテゴリ仮説を生成する。
テキスト知識と視覚的エビデンスをグローバル・ローカル・フォーカス機構を通じて整合させることにより、識別領域のローカライゼーションを行う。
最後に、大きなマルチモーダルモデルにすべてのマルチモーダル証拠を統合することで、解釈可能な推論を行う。
検索と推論を独立したプロセスとして扱う既存のエージェントとは異なり、KFRAは検索された知識を空間的に根拠付けられた検証の証拠に変換する検索基底結合を確立する。
この設計により、様々なきめ細かいシナリオにまたがる事実的、解釈可能、およびタスクに依存しない推論が可能になる。
この能力を評価するために、6つの知識次元にわたる推論深度とクロスタスクの一般化を評価するためのベンチマークであるFGExpertBenchを構築した。
大規模な実験により、KFRAはスタンドアロンの大規模マルチモーダルモデルと現在のエージェントフレームワークの両方を一貫して上回り、精度の推論において最大19%の改善を達成し、オープンセットのきめ細かい視覚的理解においてエビデンスに基づく解釈性を提供する。
関連論文リスト
- Specificity-aware reinforcement learning for fine-grained open-world classification [54.85385270439992]
オープンワールド設定下でのきめ細かい視覚概念の分類は、モデルが正確かつ具体的であることを要求します。
細粒度画像分類に基づく細粒度推論LMMのための特異性認識型強化学習フレームワークSpeciaRLを提案する。
論文 参考訳(メタデータ) (2026-03-03T17:52:39Z) - Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation [5.191980417814362]
LLMエージェントは、ほとんどの環境が静的で、必要な情報がモデルのコンテキストウインドウに適合する場合、排他的になる。
直腸型薬剤は、この体制では特に脆い。
本稿では,LLMが限定的な局所的エビデンスマイニングとラベリングを行うためのフレームワークであるEoGを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:27:19Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs [85.69785384599827]
人間と物体の相互作用(Human-object Interaction、HOI)の検出は、人と物体のペアとそれらの相互作用を局在させることを目的としている。
既存のメソッドはクローズドワールドの仮定の下で動作し、タスクを未定義の小さな動詞集合上の分類問題として扱う。
本稿では,閉集合分類タスクから開語彙生成問題へのHOI検出を再構成する新しい生成推論・ステアブル知覚フレームワークGRASP-HOを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:41:50Z) - Factuality and Transparency Are All RAG Needs! Self-Explaining Contrastive Evidence Re-ranking [0.2864713389096699]
この拡張された抽象概念は、自己説明的コントラストエビデンス・リランキング(CER)を導入している。
CERは、コントラスト学習による微調整埋め込みによる事実証拠の検索を再構築し、検索された各パスに対してトークンレベルの帰属論理を生成する。
本手法を臨床試験報告で評価した結果,CERは検索精度を向上し,RAGシステムにおける幻覚の可能性を軽減し,特に安全上重要な領域において信頼性を高めるための透明でエビデンスに基づく検索を提供することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-04T17:24:35Z) - Probing Latent Knowledge Conflict for Faithful Retrieval-Augmented Generation [46.03923254984181]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の現実性を高めるための強力なパラダイムとして登場した。
既存の文脈忠実性を改善するアプローチは、プロンプトエンジニアリング、デコード制約、報酬に基づく微調整など、外部からの介入に依存している。
文脈を微粒な文レベルの知識に分解するフレームワークであるCLEAR(Conflict-Localized and Enhanced Attention for RAG)を提案する。
論文 参考訳(メタデータ) (2025-10-14T12:48:24Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - ARise: Towards Knowledge-Augmented Reasoning via Risk-Adaptive Search [46.7782420285593]
ARiseは動的検索強化生成(RAG)と中間的推論状態のリスクアセスメントを統合する新しいフレームワークである
実験の結果、ARiseは最先端のKAR法を最大23.10%上回った。
論文 参考訳(メタデータ) (2025-04-15T06:06:50Z) - Disentangling Representations through Multi-task Learning [0.0]
分類タスクを最適に解決するエージェントにおいて,不整合表現の出現を保証する実験および理論的結果を提供する。
マルチタスクに訓練されたRNNにおいて、これらの予測を実験的に検証し、連続的な誘引子の形で非絡み合った表現を学習する。
私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
論文 参考訳(メタデータ) (2024-07-15T21:32:58Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。