論文の概要: ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning
- arxiv url: http://arxiv.org/abs/2605.27959v2
- Date: Thu, 28 May 2026 03:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.83691
- Title: ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning
- Title(参考訳): ROVER:グラウンドドマルチイメージ推論のためのオブジェクト中心ビジュアルエビデンスをルーティングする
- Authors: Guannan Lv, Ren Nie, Hongjian Dou, Tingting Gao,
- Abstract要約: ROVERは、効率的なグローバルな視覚的エビデンスルーティングのための学習可能なプラグインである。
本手法は,MM-GCoT と VideoEspresso で最高の性能を実現する。
- 参考スコア(独自算出の注目度): 8.61070160184202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have increasingly localized and interleaved visual evidence for deliberative reasoning. Grounding-based approaches typically focus on regions of interest (RoIs) by injecting cropped image patches or RoI-specific features into the reasoning context. However, such designs can weaken holistic scene understanding and inter-object relations, while incurring decoding costs that scale with the number and size of RoIs. Alternatively, adaptive visual feature selection often requires fine-grained supervision or complex heuristics. To address these limitations, we propose ROVER (Routing Object-centric Visual Evidence for grounded multi-image Reasoning), a lightweight, learnable plugin for efficient global visual evidence routing. Upon each object grounding prediction, ROVER injects a step-specific token triplet to synergistically: (i) aggregate the ongoing reasoning context, (ii) distill intra-image cues into a visual working space via object-centric differential attention, and (iii) route and integrate history-aware evidence across objects and images within this space for subsequent reasoning. We integrate ROVER into Qwen2.5-VL-7B and develop an interleaved SFT-to-GRPO training pipeline. Strictly adhering to the original datasets and evaluation protocols, our method achieves the best performance on MM-GCoT (+4.8% answer accuracy, +14.6% grounding accuracy) and VideoEspresso (+8.6% answer accuracy). The VideoEspresso-trained model demonstrates strong transferability, outperforming the base model by +4.7% on average across diverse benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、議論的推論の視覚的証拠として、ますます局所化され、インターリーブ化されている。
グラウンディングベースのアプローチは一般的に、トリミングされたイメージパッチやRoI固有の特徴を推論コンテキストに注入することによって、関心領域(RoI)に焦点を当てる。
しかし、そのような設計は、RoIsの数とサイズに応じてスケールするデコードコストを発生させながら、全体論的シーン理解とオブジェクト間関係を弱める可能性がある。
あるいは、適応的な視覚的特徴選択は、しばしばきめ細かい監督や複雑なヒューリスティックを必要とする。
これらの制約に対処するために, ROVER (Routing Object-centric Visual Evidence for grounded multi-image Reasoning) を提案する。
各オブジェクトの接地予測に際し、ROVERはステップ固有のトークン三重項をシナジスティックに注入する。
i) 進行中の推論コンテキストを集約すること。
二 被写体内キューを物体中心の差分注意により視覚的作業空間に蒸留し、
三 後続の理由づけのため、この空間内の対象物及び画像にまたがる履歴認識の証拠をルートし、統合すること。
ROVERをQwen2.5-VL-7Bに統合し、インターリーブされたSFT-to-GRPOトレーニングパイプラインを開発する。
提案手法は, MM-GCoT (+4.8%, +14.6%) と VideoEspresso (+8.6%) において, 高い性能を達成している。
VideoEspressoでトレーニングされたモデルは、強力な転送可能性を示し、様々なベンチマークでベースモデルを平均で+4.7%上回る。
関連論文リスト
- VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought [16.361394107862502]
画像内の実際の視覚的証拠に、各推論ステップを明示的にリンクするVisual Grounding Chain-of-Thoughtデータセットを提案する。
パイプラインは、GPT-4oでステップバイステップのグラウンドド推論を生成し、合理的に駆動されるオープンセット検出プロセスを通じてグラウンドディングを洗練する。
LLaVA-1.5やQwen2-VLを含む代表的なLVLMによる実験は、ほとんどの評価指標に対して一貫した改善を示した。
論文 参考訳(メタデータ) (2026-04-23T08:04:07Z) - Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning [61.753025885751036]
本稿では,3つのタスクにまたがる異種視点を融合する視覚言語モデルの能力を評価するEgo-to-Worldベンチマークを提案する。
我々は,2段階のフレームワークであるCoRLを提案し,チェイン・オブ・ソート(Chain-of-Thought)を教師付き微調整と強化学習を組み合わせた。
我々は、CoRLが、推論と知覚グラウンドのメトリクスの両方において、強力なプロプライエタリおよびオープンソースベースラインを一貫して超越していることを示します。
論文 参考訳(メタデータ) (2026-03-16T04:27:53Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - RT-VLM: Re-Thinking Vision Language Model with 4-Clues for Real-World Object Recognition Robustness [2.9979091009694088]
現実世界のデプロイメントは、しばしば、最新のオブジェクト認識モデルをドメインシフトに公開し、精度を著しく低下させる。
この劣化を軽減するため、我々はRT-VLM(Re-Thinking Vision Language Model)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-09-01T02:13:00Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - RoMeO: Robust Metric Visual Odometry [11.381243799745729]
ビジュアルオドメトリー(VO)は、視覚入力からカメラのポーズを推定することを目的としている。
既存のアプローチでは、この困難なシナリオ下で堅牢性が欠如し、目に見えないデータ(特に屋外)に一般化できない
本稿では,事前学習した深度モデルから,これらの問題を解決する新しい手法であるRoMeO(Roust Metric Visual Odometry)を提案する。
論文 参考訳(メタデータ) (2024-12-16T08:08:35Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Benchmarking Visual-Inertial Deep Multimodal Fusion for Relative Pose
Regression and Odometry-aided Absolute Pose Regression [6.557612703872671]
視覚慣性ローカライゼーションは、仮想現実、自動運転車、航空機などのコンピュータビジョンやロボティクスアプリケーションにおいて重要な問題である。
本研究では,ポーズグラフの最適化とアテンションネットワークに基づく深層マルチモーダル融合の評価を行う。
本稿では,APR-RPRタスクの改善と,航空機やハンドヘルド機器のRPR-RPRタスクの改善について述べる。
論文 参考訳(メタデータ) (2022-08-01T15:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。