Fugu-MT 論文翻訳(概要): VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

論文の概要: VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

arxiv url: http://arxiv.org/abs/2603.00207v1
Date: Fri, 27 Feb 2026 11:48:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.109864
Title: VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models
Title（参考訳）: VisRef: マルチモーダル大規模推論モデルにおけるテスト時間スケーリングの改善を検討中の視覚的リフォーカス
Authors: Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li, Ritwick Chaudhry, Linghan Xu, Hongjing Zhang, Jakub Zablocki, Yifan Xing, Qin Zhang,
Abstract要約: 視覚的に基盤付けられたテストタイムスケーリングフレームワークであるVisRefを提案する。私たちのキーとなる考え方は、ビジュアルトークンのコアセットを再注入することで、推論プロセスを積極的に導くことです。固定されたテストタイム計算予算の下では、VisRefは既存のテストタイムスケーリングアプローチを最大6.4%上回っている。
参考スコア（独自算出の注目度）: 21.438802784706994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in large reasoning models have shown strong performance on complex reasoning tasks by scaling test-time compute through extended reasoning. However, recent studies observe that in vision-dependent tasks, extended textual reasoning at inference time can degrade performance as models progressively lose attention to visual tokens and increasingly rely on textual priors alone. To address this, prior works use reinforcement learning (RL)-based fine-tuning to route visual tokens or employ refocusing mechanisms during reasoning. While effective, these methods are computationally expensive, requiring large-scale data generation and policy optimization. To leverage the benefits of test-time compute without additional RL fine-tuning, we propose VisRef, a visually grounded test-time scaling framework. Our key idea is to actively guide the reasoning process by re-injecting a coreset of visual tokens that are semantically relevant to the reasoning context while remaining diverse and globally representative of the image, enabling more grounded multi-modal reasoning. Experiments on three visual reasoning benchmarks with state-of-the-art multi-modal large reasoning models demonstrate that, under fixed test-time compute budgets, VisRef consistently outperforms existing test-time scaling approaches by up to 6.4%.
Abstract（参考訳）: 大きな推論モデルの進歩は、拡張された推論を通してテスト時間計算をスケールすることで、複雑な推論タスクに強いパフォーマンスを示してきた。しかし、近年の研究では、視覚に依存したタスクにおいて、推論時に拡張されたテキスト推論は、徐々に視覚トークンへの注意を失い、テキスト先行のみに依存するようになり、性能が低下する可能性があることが観察されている。これを解決するために、事前の作業では、強化学習(RL)ベースの微調整を使用して視覚トークンをルートしたり、推論中に再フォーカス機構を使用したりしている。有効ではあるが、これらの手法は計算コストが高く、大規模なデータ生成とポリシーの最適化が必要である。 RLの微調整を伴わずにテスト時間計算の利点を活用するために,視覚的に基盤としたテスト時間スケーリングフレームワークであるVisRefを提案する。我々のキーとなる考え方は、画像の多様でグローバルな表現を保ちながら、推論コンテキストと意味的に関連する視覚トークンのコアセットを再注入することで、推論プロセスを積極的に導くことであり、より基礎的なマルチモーダル推論を可能にします。最先端のマルチモーダルな大規模推論モデルを用いた3つのビジュアル推論ベンチマークの実験では、固定されたテストタイム計算予算の下では、VisRefは既存のテストタイムスケーリングアプローチを最大6.4%上回っている。

関連論文リスト

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs [24.90876091319589]
視覚的マルチモーダル推論のための反復的,トレーニング不要,プラグアンドプレイフレームワークを提案する。私たちのキーとなるアイデアは、視覚的なエビデンスでテスト時の各推論ステップを監督することです。本手法はTreeBenchを16.5%-29.5%改善し,RH-AUCを13.7%向上させる。
論文参考訳（メタデータ） (2026-02-25T02:13:59Z)
Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning [50.62037276161025]
視覚言語モデル(VLM)は、視覚とテキストのモダリティを共同で活用することを目的としている。主な障害は、視覚的な入力は通常、生成開始時に1回だけ提供されることである。 EmphSaliency-Aware Principle (SAP) の選択を提案する。
論文参考訳（メタデータ） (2026-02-18T18:49:56Z)
Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。 SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。 RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文参考訳（メタデータ） (2025-12-19T07:44:43Z)
Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文参考訳（メタデータ） (2025-11-28T18:59:58Z)
Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文参考訳（メタデータ） (2025-10-10T03:17:52Z)
ProxyThinker: Test-Time Guidance through Small Visual Reasoners [23.443166029380027]
ProxyThinkerは、大規模なモデルで、訓練なしに、小さく、ゆっくりと考えられた視覚的推論能力を継承できる推論時手法である。 RFTの推論者からベースモデルの出力を減じることで、プロクシーティンカーは自己検証や自己補正のような出現した振る舞いによって証明される緩やかな思考的推論を導き出す。本実装では,複数の言語モデルを並列化手法で効率的にコーディネートし,従来の復号時間法と比較して最大38$timesの高速推論を実現する。
論文参考訳（メタデータ） (2025-05-30T17:59:43Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models [43.465268635499754]
テストタイム計算は、拡張推論チェーンを生成するために、大きな言語モデルに権限を与えた。世代が長くなるにつれて、モデルは画像付きコンテンツから遠ざかっていき、言語優先に大きく依存する傾向にある。
論文参考訳（メタデータ） (2025-05-23T05:08:40Z)
Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文参考訳（メタデータ） (2025-04-07T16:51:45Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。 TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文参考訳（メタデータ） (2025-03-17T16:45:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。