Fugu-MT 論文翻訳(概要): SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization

論文の概要: SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization

arxiv url: http://arxiv.org/abs/2506.01371v1
Date: Mon, 02 Jun 2025 06:58:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.079614
Title: SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization
Title（参考訳）: SVQA-R1:View-Consistent Reward OptimizationによるMLLMにおける空間推論の強化
Authors: Peiyao Wang, Haibin Ling,
Abstract要約: 本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
参考スコア（独自算出の注目度）: 57.484274282231226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatial reasoning remains a critical yet underdeveloped capability in existing vision-language models (VLMs), especially for Spatial Visual Question Answering (Spatial VQA) tasks that require understanding relative positions, distances, and object configurations. Inspired by the R1 paradigm introduced in DeepSeek-R1, which enhances reasoning in language models through rule-based reinforcement learning (RL), we propose SVQA-R1, the first framework to extend R1-style training to spatial VQA. In particular, we introduce Spatial-GRPO, a novel group-wise RL strategy that constructs view-consistent rewards by perturbing spatial relations between objects, e.g., mirror flipping, thereby encouraging the model to develop a consistent and grounded understanding of space. Our model, SVQA-R1, not only achieves dramatically improved accuracy on spatial VQA benchmarks but also exhibits interpretable reasoning paths even without using supervised fine-tuning (SFT) data. Extensive experiments and visualization demonstrate the effectiveness of SVQA-R1 across multiple spatial reasoning benchmarks.
Abstract（参考訳）: 空間推論は、既存の視覚言語モデル(VLM)において、特に相対位置、距離、オブジェクト構成の理解を必要とする空間視覚質問回答(Spatial VQA)タスクにおいて、重要で未発達の能力である。ルールベース強化学習(RL)による言語モデルの推論を強化するDeepSeek-R1で導入されたR1パラダイムにヒントを得て,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。特にSpatial-GRPOは,オブジェクト間の空間的関係を摂動することで,一貫した空間的理解を育むことによって,視点に一貫性のある報酬を構築する新しいグループワイドRL戦略である。我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整(SFT)データを使用しなくても解釈可能な推論経路を示す。大規模な実験と可視化により、SVQA-R1が複数の空間推論ベンチマークで有効であることが示されている。

関連論文リスト

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models [59.7084864920244]
InternSpatialは視覚言語モデル(VLM)における空間推論のための最大のオープンソースデータセットである InternSpatialは、シングルビューとマルチビューの両方にまたがる1200万のQAペアで構成されている。 InternSpatial-Benchは、多様な命令形式で空間的理解を評価するために設計された評価ベンチマークである。
論文参考訳（メタデータ） (2025-06-23T08:17:22Z)
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models [18.06361678575107]
視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。 DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。 COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
論文参考訳（メタデータ） (2025-05-29T21:58:06Z)
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。 VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文参考訳（メタデータ） (2025-04-10T10:05:15Z)
SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題であるこの制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文参考訳（メタデータ） (2025-04-02T15:12:17Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文参考訳（メタデータ） (2024-08-05T04:51:46Z)
LORE++: Logical Location Regression Network for Table Structure Recognition with Pre-training [45.80561537971478]
表構造認識(TSR)は、画像中のテーブルを機械で理解可能な形式に抽出することを目的としている。我々は、論理的位置回帰問題としてTSRをモデル化し、LOREと呼ばれる新しいTSRフレームワークを提案する。提案するLOREは概念的にシンプルで、訓練が容易で、TSRの他のパラダイムよりも正確です。
論文参考訳（メタデータ） (2024-01-03T03:14:55Z)
Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。提案手法は,より空間的な文脈を維持するために表現を導くことができる。 VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-09T11:54:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。