論文の概要: Demystifying Design Choices of Reinforcement Fine-tuning: A Batched Contextual Bandit Learning Perspective
- arxiv url: http://arxiv.org/abs/2601.22532v1
- Date: Fri, 30 Jan 2026 04:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.21295
- Title: Demystifying Design Choices of Reinforcement Fine-tuning: A Batched Contextual Bandit Learning Perspective
- Title(参考訳): 強化ファインチューニングの設計選択のデミスティフィケーション:バッチ型コンテキスト帯域学習の視点から
- Authors: Hong Xie, Xiao Hu, Tao Tan, Haoran Gu, Xin Li, Jianyu Han, Defu Lian, Enhong Chen,
- Abstract要約: 本稿では,学習と一般化のダイナミクスにおける設計選択の役割を浮き彫りにすることを目的とする。
根本的な課題は、設計選択が絡み合っており、学習や一般化への貢献が難しいことだ。
3つのベースモデルと2つのデータセットの実験は、学習と一般化ダイナミクスにおける様々な設計選択の役割に関する新たな理解を明らかにしている。
- 参考スコア(独自算出の注目度): 83.75710105509076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reinforcement fine-tuning area is undergoing an explosion papers largely on optimizing design choices. Though performance gains are often claimed, inconsistent conclusions also arise from time to time, making the progress illusive. Reflecting on this illusion, we still lack principled answers to two fundamental questions: 1) what is the role of each design choice? 2) which ones are critical? This paper aims to shed light on them. The underlying challenge is that design choices are entangled together, making their contribution to learning and generalization difficult to attribute. To address this challenge, we first construct a minimalist baseline for disentangling factors: one rollout per query in each round, the outcome reward serving as the training signal without any advantage trick, and a batch size of thirty-two. This baseline connects to batched contextual bandit learning, which facilitates experimental analysis. Centering around this baseline, we design an experiment pipeline, examining the marginal gains of factors like advantage, number of rollouts, etc. Experiments on three base models and two datasets, not only reveal new understanding on the role of various design choices on learning and generalization dynamics, but also identify critical ones that deserve more effort.
- Abstract(参考訳): 強化された微調整エリアは、設計選択の最適化を主な目的とする爆発的な論文の実施中である。
性能向上はしばしば主張されるが、矛盾した結論も時折生じ、進歩は明らかになる。
この錯覚を振り返っても、2つの根本的な疑問に対する原則的な答えはいまだに欠けている。
1) それぞれの設計選択の役割は何か。
2) どれが重要なのか?
この論文は彼らに光を当てることを目的としている。
根本的な課題は、設計選択が絡み合っており、学習や一般化への貢献が難しいことだ。
この課題に対処するために、まず、各ラウンドにおけるクエリ毎のロールアウト、1つのメリットのないトレーニング信号として機能する結果報酬、32のバッチサイズという、最小限の要素を分離するためのベースラインを構築した。
このベースラインは、バッチ化された文脈的帯域学習に接続し、実験分析を容易にする。
このベースラインを中心に、私たちは実験パイプラインを設計し、利点やロールアウトの数といった要因の限界ゲインを調べます。
3つのベースモデルと2つのデータセットの実験では、学習と一般化のダイナミクスにおける様々な設計選択の役割に関する新たな理解だけでなく、より多くの努力に値する重要なものを特定することができる。
関連論文リスト
- Rethinking Reinforcement fine-tuning of LLMs: A Multi-armed Bandit Learning Perspective [54.209612511049734]
1) それぞれの選択を最適化する役割は何か? 2) ボトルネックはどれか?
本論文は,光を遮蔽することを目的としており,微調整プロセスにおいて,絡み合ったいくつかの要因の課題に直面している。
論文 参考訳(メタデータ) (2026-01-21T02:37:44Z) - What MLLMs Learn about When they Learn about Multimodal Reasoning: Perception, Reasoning, or their Integration? [46.836858357488296]
マルチモーダル推論モデルは、最近、オリンピアドレベルの幾何学のような挑戦的な領域を約束している。
マルチモーダル推論のサブスキルを切り離すために設計されたベンチマークであるMathLensを紹介する。
論文 参考訳(メタデータ) (2025-10-02T06:58:29Z) - Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search [85.201906907271]
Mini-o3は、数十ステップにわたる深いマルチターン推論を実行するシステムである。
OpenAI o3スタイルの動作を再現するためのレシピは、3つのキーコンポーネントから構成される。
大規模な実験により、Mini-o3は豊かな推論パターンと深い思考経路を生み出すことが示された。
論文 参考訳(メタデータ) (2025-09-09T17:54:21Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Which Samples Should be Learned First: Easy or Hard? [5.589137389571604]
トレーニングサンプルの重み付けは 学習作業に不可欠です。
サンプルでは簡単なファーストモードを取るスキームもあるが、ハードファーストモードを取るスキームもある。
先行知識やデータ特性を含む要因は、学習タスクで最初に学習すべきサンプルを決定する。
論文 参考訳(メタデータ) (2021-10-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。