論文の概要: ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning
- arxiv url: http://arxiv.org/abs/2603.06024v1
- Date: Fri, 06 Mar 2026 08:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.379648
- Title: ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning
- Title(参考訳): ViewFusion:マルチビュー推論のための構造化空間思考チェーン
- Authors: Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang,
- Abstract要約: 質問応答から横断的な空間的事前調整を分離する2段階のフレームワークであるViewFusionを提案する。
MMSI-Benchでは、ViewFusionはQwen3-VL-4B-Instructよりも精度を5.3%向上させる。
- 参考スコア(独自算出の注目度): 34.55728770874105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view spatial reasoning remains difficult for current vision-language models. Even when multiple viewpoints are available, models often underutilize cross-view relations and instead rely on single-image shortcuts, leading to fragile performance on viewpoint transformation and occlusion-sensitive cases. We present ViewFusion, a two-stage framework that explicitly separates cross-view spatial pre-alignment from question answering. In the first stage, the model performs deliberate spatial pre-thinking to infer viewpoint relations and spatial transformations across views, forming an intermediate workspace that goes beyond a simple re-description. In the second stage, the model conducts question-driven reasoning conditioned on this workspace to produce the final prediction. We train ViewFusion with synthetic reasoning supervision followed by reinforcement learning using GRPO, which improves answer correctness while stabilizing the intended two-stage generation behavior. On MMSI-Bench, ViewFusion improves accuracy by 5.3\% over Qwen3-VL-4B-Instruct, with the largest gains on examples that require genuine cross-view alignment.
- Abstract(参考訳): 現在の視覚言語モデルでは、多視点空間推論は難しいままである。
複数の視点が利用可能であるとしても、モデルはしばしばクロスビュー関係を過小評価し、代わりに単一イメージのショートカットに依存し、視点変換やオクルージョンに敏感なケースで脆弱なパフォーマンスをもたらす。
本稿では,2段階のフレームワークであるViewFusionについて述べる。
第一段階では、モデルは、視点関係とビュー間の空間変換を推論し、単純な再記述を超越した中間ワークスペースを形成するために、意図的に空間事前検討を行う。
第2段階では、このワークスペースに条件付き質問駆動推論を行い、最終的な予測を生成する。
目的の2段階生成行動の安定化を図り,回答の正しさを向上させるため, GRPOを用いた強化学習を併用した合成推論指導によるViewFusionの学習を行う。
MMSI-Benchでは、ViewFusionはQwen3-VL-4B-Instructよりも精度を5.3\%向上させる。
関連論文リスト
- From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models [31.570738638262956]
マルチモーダル大言語モデル (MLLM) は, 単一画像空間推論において大きく進歩している。
クロスビュー対応と視点cHangeのためのヒューマン・アウェア・トレーニングを提案する。
論文 参考訳(メタデータ) (2026-02-09T14:39:43Z) - OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-10-21T03:24:12Z) - VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning [69.64660280965971]
VideoAnchorは、サブスペース親和性を活用してフレーム間の視覚的手がかりを強化するプラグイン・アンド・プレイモジュールである。
InternVL2-8BとQ2.5VL-72Bのベンチマークで一貫した性能向上を示した。
私たちのコードはhttps://github.com/feufhd/VideoAnchor.comで公開されます。
論文 参考訳(メタデータ) (2025-09-29T17:54:04Z) - DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。