論文の概要: How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2605.27310v1
- Date: Tue, 26 May 2026 17:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.490104
- Title: How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning
- Title(参考訳): どのように、どのように想像するか : クロスビュー空間推論のための統一マルチモーダルモデルにおける視覚的思考
- Authors: Qian Yang, Ankur Sikarwar, Huy Le, Le Zhang, Zhuan Shi, Perouz Taslakian, Aishwarya Agrawal,
- Abstract要約: クロスビュー空間推論は、視覚言語モデルにとって弱点である。
私たちは、どのように視覚的思考を重要にするか、どんな視覚的思考が最善か尋ねます。
- 参考スコア(独自算出の注目度): 18.15809161363394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-view spatial reasoning remains a weak spot for vision-language models (VLMs): they often reason in language and lose the fine-grained geometry needed for the task. Thinking with images aims to address this by generating an intermediate thinking image, but recent work shows that models often ignore the visual evidence in these traces. We therefore ask how to make visual thinking matter, and what kind of visual thinking works best. We study these questions in unified multimodal models (UMMs), which natively support interleaved image-text generation. For the first question, we propose View Dropout (VDrop), a training-time intervention that hides parts of one input view from the answer span while keeping them visible to the thinking-image tokens. This encourages the model to use the thinking image when answering, instead of relying only on the input views. Once the thinking image is used for answer prediction, we study which type of visual thinking is most effective. We frame this as a learnability-informativeness tradeoff and compare three thinking-image variants: top-down, panoramic, and point-matching renderings. Trained on synthetic scenes and evaluated on five real-world out-of-domain benchmarks, panoramic visual thinking with VDrop is the only configuration that is both informative and learnable, and it achieves the best out-of-domain generalization.
- Abstract(参考訳): クロスビュー空間推論は、視覚言語モデル(VLM)の弱点であり、しばしば言語で推論され、タスクに必要な細かい幾何学が失われる。
画像について考えることは、中間的な思考画像を生成することでこの問題に対処することを目的としているが、最近の研究は、モデルがこれらのトレースの視覚的証拠を無視していることをしばしば示している。
そこで私たちは、どのように視覚的思考を重要視するか、どのような視覚的思考が最善かを尋ねます。
画像テキスト生成をネイティブにサポートする統一マルチモーダルモデル(UMM)において,これらの疑問を考察する。
最初の質問では、ある入力ビューの一部を回答スパンから隠し、思考画像トークンに表示させる訓練時間の介入であるビュードロップアウト(VDrop)を提案する。
これにより、入力ビューのみに頼るのではなく、モデルが回答するときに思考イメージを使用するように促される。
思考画像が解答予測に使用されると、どの視覚的思考が最も効果的かを検討する。
これを学習可能性と不変性のトレードオフとして捉え、トップダウン、パノラマ、ポイントマッチングの3つの図形を比較します。
VDropを使ったパノラマビジュアル思考は、合成シーンで訓練され、5つの実世界のドメイン外のベンチマークで評価され、情報的かつ学習可能な構成であり、ドメイン外の最高の一般化を実現する。
関連論文リスト
- Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination [39.713386491199884]
VLM(Vision-Language Models)は、しばしば推論中に「図をもう一度確認する」といった自己表現的なステートメントを生成する。
このようなステートメントは、真の視覚的再検査を引き起こすのか、それとも単にテキストパターンを学んだだけなのか?
我々は、イメージスワップ探索フレームワークであるVisualSwapを通してこれを調査する。
論文 参考訳(メタデータ) (2026-05-15T11:31:14Z) - VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models [81.7389759509619]
推論中の視覚的概念分析のための対話型インタフェースであるVisualScratchpadを紹介する。
視覚エンコーダにスパースオートエンコーダを適用し,テキスト・ツー・イメージ・アテンションを介して視覚概念をテキストトークンにリンクする。
VisualScratchpadはまたトークンラテントヒートマップビューも提供しており、因果解析における効果的な概念アブレーションに十分なラテントのセットを示唆している。
論文 参考訳(メタデータ) (2026-03-07T20:52:09Z) - MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens [44.19323180593379]
視覚言語モデル(VLM)は多モーダル理解において優れているが、テキストのみの復号化は視覚的推論の言語化を強いる。
最近の試みでは、VLMに明示的な画像をレンダリングするように訓練されているが、重い画像生成による事前学習は、しばしば推論能力を妨げている。
本稿では,VLMデコーディングを通常のテキストと並行して遅延視覚トークンで拡張する,Mirageと呼ばれるマシンメンタルイメージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:31Z) - v1: Learning to Point Visual Tokens for Multimodal Grounded Reasoning [27.688428439248607]
簡単なポイント・アンド・コピーアプローチによるアクティブな視覚的参照を可能にする軽量な拡張であるv1を紹介する。
これにより、モデルは関連するイメージパッチを特定し、埋め込みを推論ストリームにコピーすることができる。
我々のポインティング戦略では、MLLMはセマンティックな表現をキーとして直接イメージパッチを選択でき、知覚的証拠はモデルの推論と同じ空間に埋め込まれている。
論文 参考訳(メタデータ) (2025-05-24T19:30:47Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。