論文の概要: Rethinking Reinforcement fine-tuning of LLMs: A Multi-armed Bandit Learning Perspective
- arxiv url: http://arxiv.org/abs/2601.14599v1
- Date: Wed, 21 Jan 2026 02:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.213596
- Title: Rethinking Reinforcement fine-tuning of LLMs: A Multi-armed Bandit Learning Perspective
- Title(参考訳): LLMの強化微調整を再考する:マルチアームバンド学習の視点から
- Authors: Xiao Hu, Hong Xie, Tao Tan, Defu Lian, Jianyu Han,
- Abstract要約: 1) それぞれの選択を最適化する役割は何か? 2) ボトルネックはどれか?
本論文は,光を遮蔽することを目的としており,微調整プロセスにおいて,絡み合ったいくつかの要因の課題に直面している。
- 参考スコア(独自算出の注目度): 54.209612511049734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large number of heuristics have been proposed to optimize the reinforcement fine-tuning of LLMs. However, inconsistent claims are made from time to time, making this area elusive. Reflecting on this situation, two fundamental questions still lack a clear understanding: 1) what is the role of each optimizing choice? 2) which ones are the bottlenecks? This paper aims to shed light on them, and it faces the challenge of several entangled confounding factors in the fine-tuning process. To tackle this challenge, we propose a bottom-up experiment pipeline. The bottom layer is composed of a minimalist configuration: one training data, one rollout per round and the reward directly serve as the learning signal without advantage function design. This minimalist configuration connects to multi-armed bandit learning with extremely large discrete action space, which offers theories to corroborate the experiment findings. The up procedure of the experiment pipeline expanding the minimalist configuration layer by layer, examining the role of each design choice. Experimental results on three LLMs and two reasoning datasets not only reveal new understanding of the design choice but also yield essential insights to shape the area.
- Abstract(参考訳): LLMの強化微調整を最適化するために、多くのヒューリスティックが提案されている。
しかし、矛盾する主張は時折行われ、この領域は明白である。
この状況を反映して、2つの基本的な質問は、まだ明確な理解を欠いている。
1) 各選択を最適化する役割は何か。
2) ボトルネックはどれですか?
本論文は,光を遮蔽することを目的としており,微調整プロセスにおいて,絡み合ったいくつかの要因の課題に直面している。
この課題に対処するため,ボトムアップ実験パイプラインを提案する。
下位層は1つのトレーニングデータ、1ラウンド毎に1回ロールアウトし、報酬は関数設計を活用せずに直接学習信号として機能する。
このミニマリスト構成は、非常に大きな離散的な行動空間を持つマルチアームのバンディット学習と結びつき、実験結果を裏付ける理論を提供する。
実験パイプラインのアッププロシージャは、最小限の設定層をレイヤごとに拡張し、各設計選択の役割を調べます。
3つのLCMと2つの推論データセットの実験結果から、設計選択に対する新たな理解だけでなく、領域を形成する上で不可欠な洞察も得られている。
関連論文リスト
- Maximum Redundancy Pruning: A Principle-Driven Layerwise Sparsity Allocation for LLMs [25.66881879984798]
大きな言語モデル(LLM)は印象的な機能を示しているが、その巨大なサイズは、現実世界のアプリケーションにデプロイする上で大きな課題をもたらしている。
最近の空間割当手法は、しばしば反復や探索に基づいており、それが最適以下の性能に繋がる。
我々は,最も冗長な層に浮かぶ反復的プルーニングアルゴリズムである冗長プルーニング(MRP)を提案する。
論文 参考訳(メタデータ) (2025-03-24T06:17:30Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。