論文の概要: When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training
- arxiv url: http://arxiv.org/abs/2509.24923v1
- Date: Mon, 29 Sep 2025 15:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.091815
- Title: When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training
- Title(参考訳): メタバンディット LLM トレーニングにおける創発的爆発バイアス
- Authors: Sanxing Chen, Xiaoyin Chen, Yukun Huang, Roy Xie, Bhuwan Dhingra,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばシーケンシャルな意思決定において最適に探索する。
最近の研究は、教師付き微調整(SFT)や強化学習(RL)を通じてこの能力を向上し、古典的なマルチアームバンディットタスクの後悔を改善することを目指している。
本研究では,SFT を用いた LLM の訓練と,RL による様々な報奨信号の学習により,両パラダイムについて検討する。
その結果、エージェントは事前訓練されたモデルより優れ、アッパー信頼境界(UCB)やトンプソンサンプリングに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 26.66184262287797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) hold promise to become autonomous agents, they often explore suboptimally in sequential decision-making. Recent work has sought to enhance this capability via supervised fine-tuning (SFT) or reinforcement learning (RL), improving regret on the classic multi-armed bandit task. However, it remains unclear how these learning methods shape exploration strategies and how well they generalize. We investigate both paradigms by training LLMs with SFT on expert trajectories and RL with a range of tailored reward signals including a strategic, regret-shaped reward to reduce variance, and an algorithmic reward that enables oracle imitation. The resulting agents outperform pre-trained models and achieve performance comparable to Upper Confidence Bound (UCB) and Thompson Sampling, with robust generalization to 6x longer horizons and across bandit families. Behavioral analysis reveals that gains often stem from more sophisticated but greedier exploitation: RL/SFT agents are more prone to early catastrophic failure than pre-trained models, prematurely abandoning exploration. Furthermore, agents trained to imitate UCB learn to outperform their teacher by adopting more exploitative variants. Our findings clarify when each training paradigm is preferable and advocate tailored reward design and evaluation beyond average regret to promote robust exploratory behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自律的なエージェントになることを約束する一方で、シーケンシャルな意思決定において、亜最適に探索することが多い。
最近の研究は、教師付き微調整(SFT)や強化学習(RL)を通じてこの能力を向上し、古典的なマルチアームバンディットタスクの後悔を改善することを目指している。
しかし、これらの学習手法が探索戦略をどのように形成し、どのように一般化するかは定かではない。
両パラダイムを、専門家の軌道上でSFTを用いて学習し、RLは、分散を抑えるための戦略的、後悔の形をした報酬や、オラクルの模倣を可能にするアルゴリズム的な報酬を含む、様々な調整された報酬信号を用いて検討する。
結果として得られたエージェントは事前訓練されたモデルより優れ、アッパー・信頼境界(UCB)やトンプソン・サンプリングに匹敵する性能を達成し、より長い地平線を6倍、バンドイット族をまたいだ堅牢な一般化を実現した。
RL/SFTエージェントは、事前訓練されたモデルよりも早期に破滅的な失敗をしやすく、調査を早期に放棄する。
さらに、UCBを模倣する訓練を受けたエージェントは、より搾取的なバリエーションを採用することで、教師よりも優れたパフォーマンスを身につける。
本研究は,各トレーニングパラダイムが望ましい場合の課題を明らかにするとともに,厳格な探索行動を促進するために,平均的後悔以上の報酬設計と評価を推奨するものである。
関連論文リスト
- When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - MENTOR: A Reinforcement Learning Framework for Enabling Tool Use in Small Models via Teacher-Optimized Rewards [8.645370827540996]
大規模言語モデル (LLM) のツール使用能力をより小さく、より効率的な小言語モデル (SLM) に拡張することは、実用上の重要な課題である。
教師付き微調整(英語版)(SFT)は、堅牢な方法論を学ぶのではなく、静的な教師軌跡のセットを模倣するようにモデルを訓練するので、一般化に苦しむ。
本稿では,強化学習と教師誘導蒸留を組み合わせたフレームワークであるMENTORを提案する。
論文 参考訳(メタデータ) (2025-10-21T08:03:14Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。
挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-07-30T17:00:48Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。