論文の概要: Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2511.19516v1
- Date: Mon, 24 Nov 2025 03:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.064281
- Title: Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning
- Title(参考訳): ドットの接続:エージェント推論による学習不要な視覚的接地
- Authors: Liqin Luo, Guangyao Chen, Xiawu Zheng, Yongxing Dai, Yixiong Zou, Yonghong Tian,
- Abstract要約: GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
- 参考スコア(独自算出の注目度): 63.109585527799005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding, the task of linking textual queries to specific regions within images, plays a pivotal role in vision-language integration. Existing methods typically rely on extensive task-specific annotations and fine-tuning, limiting their ability to generalize effectively to novel or out-of-distribution scenarios. To address these limitations, we introduce GroundingAgent, a novel agentic visual grounding framework that operates without any task-specific fine-tuning. GroundingAgent employs a structured, iterative reasoning mechanism that integrates pretrained open-vocabulary object detectors, multimodal large language models (MLLMs), and large language models (LLMs) to progressively refine candidate regions through joint semantic and spatial analyses. Remarkably, GroundingAgent achieves an average zero-shot grounding accuracy of 65.1 % on widely-used benchmarks (RefCOCO, RefCOCO+, RefCOCOg), entirely without fine-tuning. Furthermore, by substituting MLLM-generated captions with the original query texts, the accuracy at the selection stage alone reaches approximately 90 %, closely matching supervised performance and underscoring the critical role of LLM reasoning capabilities. GroundingAgent also offers strong interpretability, transparently illustrating each reasoning step and providing clear insights into its decision-making process.
- Abstract(参考訳): 画像内の特定の領域にテキストクエリをリンクするタスクであるビジュアルグラウンドは、視覚言語統合において重要な役割を果たす。
既存のメソッドは通常、広範囲なタスク固有のアノテーションと微調整に依存しており、新規またはアウト・オブ・ディストリビューションシナリオに効果的に一般化する能力を制限している。
このような制約に対処するために,タスク固有の微調整を伴わずに動作する新しいエージェント型ビジュアルグラウンドティングフレームワークである GroundingAgent を紹介した。
GroundingAgentは、事前訓練されたオープンボキャブラリオブジェクト検出器、マルチモーダル大言語モデル(MLLM)、および大規模言語モデル(LLM)を統合した構造化された反復的推論機構を使用して、共同意味論と空間分析を通じて候補領域を段階的に洗練する。
注目すべきは、GroundingAgentは、広く使用されているベンチマーク(RefCOCO、RefCOCO+、RefCOCOg)において、完全に微調整なしで平均で65.1%のゼロショットグラウンド精度を達成することである。
さらに、MLLM生成キャプションを元のクエリテキストに置換することにより、選択段階での精度は90%程度に達し、教師付き性能と密に一致し、LLM推論能力の重要な役割を解明する。
GroundingAgentはまた、強い解釈可能性を提供し、各推論ステップを透過的に説明し、意思決定プロセスに関する明確な洞察を提供する。
関連論文リスト
- FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow [19.502882116487005]
リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。
地理空間推論のための統合ワークフローであるRemoteReasonerを提案する。
RemoteReasonerは、複数の粒度推論タスクにわたる最先端(SOTA)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-25T13:58:11Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - From Goal-Conditioned to Language-Conditioned Agents via Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。