論文の概要: BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning
- arxiv url: http://arxiv.org/abs/2510.26374v2
- Date: Thu, 06 Nov 2025 09:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.46892
- Title: BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning
- Title(参考訳): BOTS: LLM強化ファインタニングにおけるベイズオンラインタスク選択のための統一フレームワーク
- Authors: Qianli Shen, Daoyuan Chen, Yilun Huang, Zhenqing Ling, Yaliang Li, Bolin Ding, Jingren Zhou,
- Abstract要約: 強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
- 参考スコア(独自算出の注目度): 82.925106913459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement finetuning (RFT) is a key technique for aligning Large Language Models (LLMs) with human preferences and enhancing reasoning, yet its effectiveness is highly sensitive to which tasks are explored during training. Uniform task sampling is inefficient, wasting computation on tasks that are either trivial or unsolvable, while existing task selection methods often suffer from high rollout costs, poor adaptivity, or incomplete evidence. We introduce BOTS, a unified framework for Bayesian Online Task Selection in LLM reinforcement finetuning. Grounded in Bayesian inference, BOTS adaptively maintains posterior estimates of task difficulty as the model evolves. It jointly incorporates explicit evidence from direct evaluations of selected tasks and implicit evidence inferred from these evaluations for unselected tasks, with Thompson sampling ensuring a principled balance between exploration and exploitation. To make implicit evidence practical, we instantiate it with an ultra-light interpolation-based plug-in that estimates difficulties of unevaluated tasks without extra rollouts, adding negligible overhead. Empirically, across diverse domains and LLM scales, BOTS consistently improves data efficiency and performance over baselines and ablations, providing a practical and extensible solution for dynamic task selection in RFT.
- Abstract(参考訳): 強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法であるが、その効果は訓練中にどのタスクを探索するかに非常に敏感である。
均一なタスクサンプリングは非効率であり、簡単なタスクや解決不可能なタスクの計算を浪費するが、既存のタスク選択手法はロールアウトコストが高く、適応性が低い、あるいは不完全なエビデンスに悩まされることが多い。
LLM強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
ベイズ推定に基づいて、BOTSはモデルが進化するにつれてタスク困難の後方推定を適応的に維持する。
これは、選択されたタスクの直接評価から明らかな証拠と、選択されていないタスクに対するこれらの評価から推測される暗黙の証拠を共同で含み、トンプソンは探索と搾取の間の原則的なバランスを確保する。
暗黙的なエビデンスを実践するために、我々は、余分なロールアウトなしで未評価タスクの難しさを見積もる超軽量補間ベースのプラグインでそれをインスタンス化する。
実証的には、さまざまなドメインやLLMスケールでBOTSは、ベースラインや改善点よりもデータ効率とパフォーマンスを一貫して改善し、RFTにおける動的タスク選択のための実用的な拡張可能なソリューションを提供する。
関連論文リスト
- Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Prompt Tuning Decision Transformers with Structured and Scalable Bandits [4.460057058209513]
提案手法は,推定時刻における実演データから最適軌道プロンプトを構築することを学習するバンディットベースのプロンプトチューニング手法である。
提案手法は,幅広いタスク,高次元環境,アウト・オブ・ディストリビューションシナリオにまたがる性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-02-07T14:57:17Z) - Model Predictive Task Sampling for Efficient and Robust Adaptation [57.414812940406996]
本稿では,タスク空間と適応リスク分布をブリッジするフレームワークであるモデル予測タスクサンプリング(MPTS)を紹介する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文 参考訳(メタデータ) (2025-01-19T13:14:53Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - MALIBO: Meta-learning for Likelihood-free Bayesian Optimization [11.097684270692355]
本稿では,サロゲートモデルをバイパスし,タスク間のクエリの有用性を直接学習するメタラーニングBO手法を提案する。
本手法は,タスクの不確実性を明示的にモデル化し,新しいタスクへのロバスト適応を可能にする補助モデルを含む。
提案手法は, 常に高い性能を示し, 様々なベンチマークにおいて, 最先端のメタラーニングBO法より優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-07T12:57:10Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Task-guided Disentangled Tuning for Pretrained Language Models [16.429787408467703]
本稿では,事前学習型言語モデル(PLM)のためのタスク誘導型ディスタングル型チューニング(TDT)を提案する。
TDTは、タスク関連信号を絡み合った表現から切り離すことにより、表現の一般化を強化する。
GLUE と CLUE のベンチマークによる実験結果から,TDT は異なる PLM を用いた微調整よりも一貫した結果が得られた。
論文 参考訳(メタデータ) (2022-03-22T03:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。