論文の概要: Real-Time Visual Attribution Streaming in Thinking Model
- arxiv url: http://arxiv.org/abs/2604.16587v1
- Date: Fri, 17 Apr 2026 15:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.093575
- Title: Real-Time Visual Attribution Streaming in Thinking Model
- Title(参考訳): 思考モデルにおけるリアルタイム視覚属性ストリーミング
- Authors: Seil Kang, Woojung Han, Junhyeok Kim, Jinyeong Kim, Youngeun Kim, Seong Jae Hwang,
- Abstract要約: マルチモーダル思考モデルにおけるリアルタイム視覚属性ストリーミングのためのアモータイズされたフレームワークを提案する。
この結果から,マルチモーダル思考モデルにおけるリアルタイムな忠実な帰属は,ブルートフォース計算ではなく,軽量な学習によって達成可能であることが示された。
- 参考スコア(独自算出の注目度): 20.332704303885638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an amortized framework for real-time visual attribution streaming in multimodal thinking models. When these models generate code from a screenshot or solve math problems from images, their long reasoning traces should be grounded in visual evidence. However, verifying this reliance is challenging: faithful causal methods require costly repeated backward passes or perturbations, while raw attention maps offer instant access, they lack causal validity. To resolve this, we introduce an amortized approach that learns to estimate the causal effects of semantic regions directly from the rich signals encoded in attention features. Across five diverse benchmarks and four thinking models, our approach achieves faithfulness comparable to exhaustive causal methods while enabling visual attribution streaming, where users observe grounding evidence as the model reasons, not after. Our results demonstrate that real-time, faithful attribution in multimodal thinking models is achievable through lightweight learning, not brute-force computation.
- Abstract(参考訳): マルチモーダル思考モデルにおけるリアルタイム視覚属性ストリーミングのためのアモータイズされたフレームワークを提案する。
これらのモデルがスクリーンショットからコードを生成したり、画像から数学の問題を解く場合、その長い推論の痕跡は視覚的証拠に根拠を置くべきである。
忠実な因果関係の手法は、後ろ向きのパスや摂動の繰り返しを必要とするが、生の注意マップは即時アクセスを提供するが、因果関係の妥当性は欠如している。
そこで本研究では,注意特徴に符号化されたリッチ信号から直接意味領域の因果効果を推定するアモータイズ手法を提案する。
5つの多様なベンチマークと4つの思考モデルにまたがって、我々のアプローチは徹底的な因果解法に匹敵する忠実性を達成しつつ、視覚的帰属ストリーミングを実現し、ユーザーはモデル上の理由として、後ではなく、根拠となる証拠を観察する。
この結果から,マルチモーダル思考モデルにおけるリアルタイムな忠実な帰属は,ブルートフォース計算ではなく,軽量な学習によって達成可能であることが示された。
関連論文リスト
- VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models [21.438802784706994]
視覚的に基盤付けられたテストタイムスケーリングフレームワークであるVisRefを提案する。
私たちのキーとなる考え方は、ビジュアルトークンのコアセットを再注入することで、推論プロセスを積極的に導くことです。
固定されたテストタイム計算予算の下では、VisRefは既存のテストタイムスケーリングアプローチを最大6.4%上回っている。
論文 参考訳(メタデータ) (2026-02-27T11:48:19Z) - See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs [24.90876091319589]
視覚的マルチモーダル推論のための反復的,トレーニング不要,プラグアンドプレイフレームワークを提案する。
私たちのキーとなるアイデアは、視覚的なエビデンスでテスト時の各推論ステップを監督することです。
本手法はTreeBenchを16.5%-29.5%改善し,RH-AUCを13.7%向上させる。
論文 参考訳(メタデータ) (2026-02-25T02:13:59Z) - MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels [22.497467057872377]
本研究は,マルチモーダル文脈におけるシステムIおよびシステムII推論に伴う歪みに関する最初の系統的研究である。
遅い推論モデルは、不完全あるいは誤解を招く視覚的入力を提示すると、欠陥のある推論をサポートするために、妥当で誤った詳細をつくり出す傾向にあることを実証する。
論文 参考訳(メタデータ) (2025-05-26T16:55:38Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。