論文の概要: Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2503.16188v3
- Date: Tue, 15 Apr 2025 15:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:40.669632
- Title: Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning
- Title(参考訳): 思考・思考しない:ルールに基づく視覚強化ファインチューニングにおける明示的思考に関する研究
- Authors: Ming Li, Jike Zhong, Shitian Zhao, Yuxiang Lai, Kaipeng Zhang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)のためのルールベース強化学習微調整(RFT)における思考過程について検討する。
まず,MLLM の思考を促進するために,検証可能な報酬を用いて分類のための CLS-RL を提案する。
実験の結果、CLS-RLはSFTを著しく上回り、"フリーランチ"の一般化効果が得られる(あるデータセットでトレーニングした後、目に見えないデータセットのパフォーマンスを改善する)。
この明示的思考がRFTにとって常に必要であるかどうかを問う。明示的思考はRFTにとって不可欠である、という規則に従えば、単純な等式精度の報酬による思考の最小化を図りながら、No-Thinking-RLを導入する。
- 参考スコア(独自算出の注目度): 8.665713419757061
- License:
- Abstract: This paper investigates the thinking process in rule-based reinforcement learning fine-tuning (RFT) for multi-modal large language models (MLLMs). We first propose CLS-RL for classification, using verifiable rewards to encourage MLLM thinking. Experiments show CLS-RL significantly outperforms SFT and yields a 'free-lunch' generalization effect (improving performance on unseen datasets after training on one dataset). We then question if this explicit thinking is always necessary for RFT. Challenging convention that explicit thinking is crucial for RFT, we introduce No-Thinking-RL, minimizing thinking via a simple equality accuracy reward. Experiments show No-Thinking-RL surpasses CLS-RL in in-domain and generalization abilities, with significantly less fine-tuning time. This suggests reducing thinking can improve MLLM fine-tuning efficiency and effectiveness for certain visual tasks. We hypothesize explicit thinking negatively impacts reward convergence during RFT. To test this, we propose the Think-After-Answerwer method to let models first output the answer and then generate thinking process to alliviate the negative impact of thinking. We further test No-Thinking-RL on diverse tasks (including math, spatial, puzzles) with 2B and 7B models. For 2B models, No-Thinking-RL outperforms thinking-based RFT for all tasks, even on math, with Think-After-Answerwer performing intermediately. For 7B models, performance is comparable on simple visual tasks, but RFT with thinking excels on complex reasoning (math). This implies when dealing with complex math problems, smaller models struggle with generating effective reasoning, hurting performance on complex tasks. Conversely, for simple visual tasks, thinking is not indispensable, and its removal can boost performance and reduce training time. We hope our findings offer insights for better understanding the effect of the thinking process in RFT.
- Abstract(参考訳): 本稿では,多モード大言語モデル(MLLM)のためのルールベース強化学習微調整(RFT)における思考過程について検討する。
まず,MLLM の思考を促進するために,検証可能な報酬を用いて分類のための CLS-RL を提案する。
実験の結果、CLS-RLはSFTを著しく上回り、"フリーランチ"の一般化効果が得られる(あるデータセットでトレーニングした後、目に見えないデータセットのパフォーマンスを改善する)。
そして、この明示的な思考が常にRFTに必要かどうかを問う。
明示的思考はRFTにとって不可欠である、という慣例を満たすため、簡単な等式精度の報酬による思考を最小化するNo-Thinking-RLを導入する。
実験により、No-Thinking-RLはドメイン内および一般化能力においてCRS-RLをはるかに上回り、微調整時間が大幅に短縮された。
このことは、思考を減らすことで、特定の視覚的タスクに対するMLLMの微調整効率と有効性を向上させることを示唆している。
我々は、露骨な思考がRTTの報酬収束に悪影響を及ぼすと仮定する。
これをテストするために、まずモデルに回答を出力させ、次に思考のネガティブな影響を緩和する思考過程を生成するThink-After-Answer法を提案する。
さらに,2Bモデルと7Bモデルを用いて,様々なタスク(数学,空間,パズルなど)についてNo-Thinking-RLを検証した。
2Bモデルでは、No-Thinking-RLは、Think-After-Answerwerが中間的なパフォーマンスで、数学でも全てのタスクにおいて思考ベースのRFTよりも優れています。
7Bモデルの場合、パフォーマンスは単純な視覚的タスクに匹敵するが、RFTは複雑な推論(数学)に長けている。
これは、複雑な数学的な問題を扱う場合、より小さなモデルは効果的な推論を生成するのに苦労し、複雑なタスクのパフォーマンスを損なうことを意味する。
逆に、単純な視覚的なタスクでは思考は不可欠ではなく、その除去によってパフォーマンスが向上し、トレーニング時間が短縮される。
RFTにおける思考プロセスの効果をよりよく理解するための洞察を与えてくれることを願っている。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - SLCA: Slow Learner with Classifier Alignment for Continual Learning on a
Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。
Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。
さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文 参考訳(メタデータ) (2023-03-09T08:57:01Z) - Efficient Gaussian Process Model on Class-Imbalanced Datasets for
Generalized Zero-Shot Learning [37.00463358780726]
本稿では,潜在機能埋め込みを学習するニューラルネットワークモデルと,未確認クラスの潜在機能プロトタイプを予測するガウスプロセス(GP)回帰モデルを提案する。
我々のモデルは、クラス不均衡なトレーニングデータの影響を緩和する単純なトレーニング戦略により、効率的に訓練される。
論文 参考訳(メタデータ) (2022-10-11T04:57:20Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - CRL: Class Representative Learning for Image Classification [5.11566193457943]
本稿では,ZSLの影響を受けやすいクラス代表学習モデル(CRL)を提案する。
CRLモデルでは、まず、畳み込みニューラルネットワーク(CNN)から抽出された特徴を集約することにより、データセットのクラスを表現するクラス代表を構築する。
提案したCRLモデルは,ZSLおよびモバイル深層学習における最先端の研究と比較して,優れた性能を示した。
論文 参考訳(メタデータ) (2020-02-16T17:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。