論文の概要: Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2503.20752v1
- Date: Wed, 26 Mar 2025 17:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:53.344062
- Title: Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning
- Title(参考訳): Reason-RFT:Reinforcement Fine-Tuning for Visual Reasoning
- Authors: Huajie Tan, Yuheng Ji, Xiaoshuai Hao, Minglan Lin, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang,
- Abstract要約: 視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。
既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。
我々は新しい強化微調整フレームワークReason-RFTを提案する。
- 参考スコア(独自算出の注目度): 19.28434717501445
- License:
- Abstract: Visual reasoning abilities play a crucial role in understanding complex multimodal data, advancing both domain-specific applications and artificial general intelligence (AGI). Existing methods improve VLM reasoning via Chain-of-Thought (CoT) supervised fine-tuning, using meticulously annotated training data to enhance visual reasoning capabilities. However, this training paradigm may lead to overfitting and cognitive rigidity, restricting the model's ability to transfer visual reasoning skills across domains and limiting its real-world applicability. To address these limitations, we propose Reason-RFT, a novel reinforcement fine-tuning framework that significantly enhances generalization capabilities in visual reasoning tasks. Reason-RFT introduces a two-phase training framework for visual reasoning: (1) Supervised Fine-Tuning (SFT) with curated Chain-of-Thought (CoT) data activates the reasoning potential of Vision-Language Models (VLMs), followed by (2) Group Relative Policy Optimization (GRPO)-based reinforcement learning that generates multiple reasoning-response pairs, significantly enhancing generalization in visual reasoning tasks. To evaluate Reason-RFT's visual reasoning capabilities, we reconstructed a comprehensive dataset spanning visual counting, structure perception, and spatial transformation.cExperimental results demonstrate Reasoning-RFT's three key advantages: (1) Performance Enhancement: achieving state-of-the-art results across multiple tasks, outperforming most mainstream open-source and proprietary models; (2) Generalization Superiority: consistently maintaining robust performance across diverse tasks and domains, outperforming alternative training paradigms; (3) Data Efficiency: excelling in few-shot learning scenarios while surpassing full-dataset SFT baselines.
- Abstract(参考訳): 視覚推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を担い、ドメイン固有のアプリケーションと人工知能(AGI)の両方を前進させる。
既存の手法では、視覚的推論能力を高めるために、微調整を監督するChain-of-Thought (CoT)によるVLM推論を改善する。
しかし、この訓練パラダイムは、過度に適合し、認知的剛性をもたらし、ドメイン間で視覚的推論スキルを伝達する能力を制限し、実際の適用性を制限する可能性がある。
これらの制約に対処するために,視覚推論タスクにおける一般化能力を大幅に向上させる新しい強化微調整フレームワークであるReason-RFTを提案する。
Reason-RFTは視覚推論のための2段階のトレーニングフレームワークを導入している: 1) CoT(Chain-of-Thought)データを補正したSFT(Supervised Fine-Tuning)はビジョン・ランゲージモデル(VLM)の推論ポテンシャルを活性化し、(2) グループ相対ポリシー最適化(GRPO)に基づく複数の推論応答対を生成する強化学習を行い、視覚推論タスクにおける一般化を著しく向上する。
Reason-RFTの視覚的推論能力を評価するために、我々は、視覚的計数、構造知覚、空間的変換にまたがる包括的データセットを再構築した。c実験の結果、Reasoning-RFTの3つの主要な利点を実証した。(1)性能向上:複数のタスクにまたがる最先端の成果の達成、最も主流のオープンソースおよびプロプライエタリなモデルよりも優れ、(2)一般化迷彩性:多種多様なタスクやドメインにまたがる堅牢なパフォーマンスの維持、代替トレーニングパラダイムの向上、(3)データ効率:フルデータセットのSFTベースラインを越えながら、少数ショット学習シナリオにおいて優れたデータ効率。
関連論文リスト
- Cognitive Paradigms for Evaluating VLMs on Visual Reasoning Task [3.2228025627337864]
機械の視覚的推論を改善するには、ビジョン・ランゲージ・モデル(VLM)がどのように複雑な視覚的パターンを処理し、解釈するかを深く理解する必要がある。
本研究は,自然画像に基づくボナード問題に基づくVLM推論を体系的に解析する,認知に着想を得た新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文 参考訳(メタデータ) (2024-03-06T02:01:38Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Counterfactual Collaborative Reasoning [41.89113539041682]
因果推論と論理推論は、人間の知性にとって重要な推論能力の2つの種類である。
本稿では,性能向上のために,対実論理推論を行う対実協調推論を提案する。
3つの実世界のデータセットの実験は、CCRが非拡張モデルや暗黙的に拡張モデルよりも優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2023-06-30T23:01:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。