論文の概要: BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning
- arxiv url: http://arxiv.org/abs/2510.26374v2
- Date: Thu, 06 Nov 2025 09:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.46892
- Title: BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning
- Title(参考訳): BOTS: LLM強化ファインタニングにおけるベイズオンラインタスク選択のための統一フレームワーク
- Authors: Qianli Shen, Daoyuan Chen, Yilun Huang, Zhenqing Ling, Yaliang Li, Bolin Ding, Jingren Zhou,
- Abstract要約: 強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
- 参考スコア(独自算出の注目度): 82.925106913459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement finetuning (RFT) is a key technique for aligning Large Language Models (LLMs) with human preferences and enhancing reasoning, yet its effectiveness is highly sensitive to which tasks are explored during training. Uniform task sampling is inefficient, wasting computation on tasks that are either trivial or unsolvable, while existing task selection methods often suffer from high rollout costs, poor adaptivity, or incomplete evidence. We introduce BOTS, a unified framework for Bayesian Online Task Selection in LLM reinforcement finetuning. Grounded in Bayesian inference, BOTS adaptively maintains posterior estimates of task difficulty as the model evolves. It jointly incorporates explicit evidence from direct evaluations of selected tasks and implicit evidence inferred from these evaluations for unselected tasks, with Thompson sampling ensuring a principled balance between exploration and exploitation. To make implicit evidence practical, we instantiate it with an ultra-light interpolation-based plug-in that estimates difficulties of unevaluated tasks without extra rollouts, adding negligible overhead. Empirically, across diverse domains and LLM scales, BOTS consistently improves data efficiency and performance over baselines and ablations, providing a practical and extensible solution for dynamic task selection in RFT.
- Abstract(参考訳): 強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法であるが、その効果は訓練中にどのタスクを探索するかに非常に敏感である。
均一なタスクサンプリングは非効率であり、簡単なタスクや解決不可能なタスクの計算を浪費するが、既存のタスク選択手法はロールアウトコストが高く、適応性が低い、あるいは不完全なエビデンスに悩まされることが多い。
LLM強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
ベイズ推定に基づいて、BOTSはモデルが進化するにつれてタスク困難の後方推定を適応的に維持する。
これは、選択されたタスクの直接評価から明らかな証拠と、選択されていないタスクに対するこれらの評価から推測される暗黙の証拠を共同で含み、トンプソンは探索と搾取の間の原則的なバランスを確保する。
暗黙的なエビデンスを実践するために、我々は、余分なロールアウトなしで未評価タスクの難しさを見積もる超軽量補間ベースのプラグインでそれをインスタンス化する。
実証的には、さまざまなドメインやLLMスケールでBOTSは、ベースラインや改善点よりもデータ効率とパフォーマンスを一貫して改善し、RFTにおける動的タスク選択のための実用的な拡張可能なソリューションを提供する。
関連論文リスト
- Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Prompt Tuning Decision Transformers with Structured and Scalable Bandits [4.460057058209513]
提案手法は,推定時刻における実演データから最適軌道プロンプトを構築することを学習するバンディットベースのプロンプトチューニング手法である。
提案手法は,幅広いタスク,高次元環境,アウト・オブ・ディストリビューションシナリオにまたがる性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-02-07T14:57:17Z) - Model Predictive Task Sampling for Efficient and Robust Adaptation [57.414812940406996]
本稿では,タスク空間と適応リスク分布をブリッジするフレームワークであるモデル予測タスクサンプリング(MPTS)を紹介する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文 参考訳(メタデータ) (2025-01-19T13:14:53Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。