論文の概要: Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks
- arxiv url: http://arxiv.org/abs/2602.23898v1
- Date: Fri, 27 Feb 2026 10:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.37716
- Title: Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks
- Title(参考訳): Ref-Adv: Referring Expression TasksにおけるMLLMビジュアル推論の探索
- Authors: Qihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu,
- Abstract要約: Ref-Advは、言語的に非自明な表現とターゲットを特定するのに必要な情報のみをペアリングすることでショートカットを抑制する現代的なRECベンチマークである。
データセットは、実際の画像への参照表現を含み、ハードイントラクタでキュレートされ、否定を含む推論ファセットで注釈付けされる。
RefCOCO、RefCOCO+、RefCOCOgの強い結果にもかかわらず、モデルはRef-Advで著しく低下し、ショートカットと視覚的推論とグラウンドディングのギャップに依存することが明らかになった。
- 参考スコア(独自算出の注目度): 65.37131487318273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.
- Abstract(参考訳): Referring Expression Comprehension (REC)は、言語と地域レベルの視覚知覚を関連付ける。
標準ベンチマーク(RefCOCO、RefCOCO+、RefCOCOg)は、マルチモーダルLLMで急速に進歩しているが、視覚的推論とグラウンドニングの弱いテストのままである。
(i)多くの表現は非常に短く、要求の理由もほとんど残っていない。
(ii)画像は、しばしば邪魔者が少なく、ターゲットを見つけやすくする。
3) 冗長な記述子により、真のテキスト理解と視覚的推論を回避できるショートカットソリューションが実現される。
Ref-Advは、言語的に非自明な表現と、ターゲットを一意に識別するために必要な情報のみをペアリングすることで、ショートカットを抑える最新のRECベンチマークである。
データセットは、実際の画像への参照表現を含み、ハードイントラクタでキュレートされ、否定を含む推論ファセットで注釈付けされる。
本稿では,Ref-Advを解くには単純な手がかり以上の推論が必要であることを示すために,包括的アブレーション(単語順の摂動と記述の削除)を行い,Ref-Adv上での同時代のマルチモーダルLCMの幅広いスイートを評価する。
RefCOCO、RefCOCO+、RefCOCOgの強い結果にもかかわらず、モデルはRef-Advで著しく低下し、ショートカットと視覚的推論とグラウンドディングのギャップに依存することが明らかになった。
MLLMにおける視覚的推論と接地に関する今後の研究をガイドするために,奥行き障害解析とRef-Advの実現を目指している。
関連論文リスト
- MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions [42.03378622674476]
視覚領域の反射によるマルチモーダル反復推論のためのMIRRORフレームワークを提案する。
ビジュアルリフレクションをコアメカニズムとして埋め込むことで、MIRRORはドラフト、批評、地域ベースの検証、リビジョンを含むクローズドループプロセスとして定式化される。
一般的な視覚言語ベンチマークと代表的な視覚言語推論ベンチマークの両方の実験は、MIRRORが正確性を改善し、視覚幻覚を減らすことを示している。
論文 参考訳(メタデータ) (2026-02-21T07:56:59Z) - RefBench-PRO: Perceptual and Reasoning Oriented Benchmark for Referring Expression Comprehension [45.091078689395864]
Referring Expression (REC)は、テキスト記述に基づいて特定の画像領域をローカライズする視覚言語タスクである。
RefBench-PROは、参照表現を2つのコア次元、すなわち知覚と推論に分解する総合的なRECベンチマークである。
また,より複雑な推論条件下での局所化精度を向上させるために,動的IoUベースのGRPOを組み込んだRLベースの学習スキームRef-R1を提案する。
論文 参考訳(メタデータ) (2025-12-06T03:59:21Z) - SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。
最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文 参考訳(メタデータ) (2025-10-11T10:50:58Z) - Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection [58.82268659497348]
この失敗の根源は、根本的なミスマッチにある、と私たちは主張する。
本稿では,偽画像検出のための汎用的で説明可能な,会話型アシスタントであるForensic-Chatを提案する。
論文 参考訳(メタデータ) (2025-09-29T20:59:19Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation [61.37076111486196]
Ref-AVSは、対象のオブジェクトを所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
本稿では,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
Ref-Thinkerはマルチモーダル言語モデルであり、テキスト、視覚、聴覚の手がかりを推論することができる。
論文 参考訳(メタデータ) (2025-08-06T13:05:09Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Eliciting Critical Reasoning in Retrieval-Augmented Language Models via Contrastive Explanations [4.697267141773321]
Retrieval-augmented Generation (RAG) は、よりリッチな現実的コンテキストに体系的にアクセスする大規模言語モデル(LLM)をサポートするために、現代のNLPにおいて重要なメカニズムとして登場した。
近年の研究では、LLMはRAGに基づくインコンテキスト情報(誤った推論や幻覚につながる可能性のある制限)を批判的に分析するのに苦慮していることが示されている。
本稿では,RAGにおける批判的推論を,対照的な説明を通じてどのように引き起こすかを検討する。
論文 参考訳(メタデータ) (2024-10-30T10:11:53Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。