論文の概要: SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2505.19094v1
- Date: Sun, 25 May 2025 11:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.89975
- Title: SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards
- Title(参考訳): SATORI-R1:空間グラウンドと検証可能なリワードによるマルチモーダル推論のインセンティブ化
- Authors: Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng,
- Abstract要約: DeepSeek-R1は、安定強化学習(RL)を通じてテキスト領域で強力な推論能力を示した
本稿では、VQAを3つの検証段階に分解するSATORI(textbfSpatially$ $textbfAnchored$ $textbfTask$ $textbfOptimization$ with $textbfRetextbfInforcement$ Learning)を紹介する。
実験では、7つのVQAベンチマークで一貫したパフォーマンス改善が示され、最大15.7%の改善が達成された。
- 参考スコア(独自算出の注目度): 23.02076024811612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DeepSeek-R1 has demonstrated powerful reasoning capabilities in the text domain through stable reinforcement learning (RL). Recently, in the multimodal domain, works have begun to directly apply RL to generate R1-like free-form reasoning for Visual Question Answering (VQA) tasks. However, multimodal tasks share an intrinsically different nature from textual tasks, which heavily rely on the understanding of the input image to solve the problem. Therefore, such free-form reasoning faces two critical limitations in the VQA task: (1) Extended reasoning chains diffuse visual focus away from task-critical regions, degrading answer accuracy. (2) Unverifiable intermediate steps amplify policy-gradient variance and computational costs overhead. To address these issues, in this paper, we introduce SATORI ($\textbf{S}patially$ $\textbf{A}nchored$ $\textbf{T}ask$ $\textbf{O}ptimization$ with $\textbf{R}e\textbf{I}nforcement$ Learning), which decomposes VQA into three verifiable stages, including global image captioning, region localization, and answer prediction, each supplying explicit reward signals. Furthermore, we also introduce VQA-Verify, a 12k dataset annotated with answer-aligned captions and bounding-boxes to facilitate training. Experiments demonstrate consistent performance improvements across seven VQA benchmarks, achieving up to $15.7\%$ improvement in accuracy in accuracy compared to the R1-like baseline. Our analysis of the attention map confirms enhanced focus on critical regions, which brings improvements in accuracy. Our code is available at https://github.com/justairr/SATORI-R1.
- Abstract(参考訳): DeepSeek-R1は、安定強化学習(RL)を通じて、テキスト領域で強力な推論機能を実証している。
近年、マルチモーダル領域において、視覚質問応答(VQA)タスクに対してR1のような自由形式推論を生成するためにRLを直接適用する作業が始まっている。
しかし、マルチモーダルタスクは、入力画像の理解に大きく依存するテキストタスクとは本質的に異なる性質を持っている。
したがって、このような自由形推論はVQAタスクにおいて2つの重要な制限に直面している:(1)拡張推論チェーンはタスククリティカル領域から視覚的焦点を遠ざけ、解答精度を低下させる。
2) 未検証中間段階は, 政策段階の分散と計算コストのオーバーヘッドを増幅する。
本稿では,これらの問題に対処するため,SATORI ($\textbf{S}patially$ $\textbf{A}nchored$ $\textbf{T}ask$$\textbf{O}ptimization$ with $\textbf{R}e\textbf{I}nforcement$ Learning)を導入し,VQAを大域的な画像キャプション,領域ローカライゼーション,応答予測を含む3つの検証可能なステージに分解する。
さらに,回答対応キャプションとバウンディングボックスを付加した12kデータセットであるVQA-Verifyを導入して,トレーニングを容易にする。
実験では、7つのVQAベンチマークで一貫したパフォーマンス向上を示し、R1のようなベースラインに比べて精度が最大15.7 %向上した。
注意マップの分析により,重要領域への注目度が向上し,精度が向上した。
私たちのコードはhttps://github.com/justairr/SATORI-R1.comで利用可能です。
関連論文リスト
- VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文 参考訳(メタデータ) (2025-05-22T03:50:13Z) - From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration [30.781359402734036]
LVLM(Large Vision-Language Models)は、視覚的理解と言語生成の融合において大きな進歩を遂げている。
この成功にもかかわらず、LVLMのトレーニングデータは、データ分布が極めて不均衡であるLong-Tail (LT)問題に悩まされている。
DSの段階では,Denoising Diffusion Probabilistic Models(DDPM)と不足した画像を利用して,表現不足の部分を補う。
論文 参考訳(メタデータ) (2025-03-17T05:01:09Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。