論文の概要: Learning to Play Blackjack: A Curriculum Learning Perspective
- arxiv url: http://arxiv.org/abs/2604.00076v2
- Date: Thu, 02 Apr 2026 15:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.275517
- Title: Learning to Play Blackjack: A Curriculum Learning Perspective
- Title(参考訳): ブラックジャックの遊び方を学ぶ - カリキュラム学習の視点から
- Authors: Amirreza Alasti, Efe Erdal, Yücel Celik, Theresa Eimer,
- Abstract要約: 強化学習(RL)エージェントは複雑な環境で効率と性能に苦しむことが多い。
本稿では、LLM(Large Language Model)を用いて、利用可能なアクションに対してカリキュラムを動的に生成する新しいフレームワークを提案する。
我々はこのフレームワークをBlackjackのゲームに適用し、LCMはマルチステージトレーニングパスを生成する。
- 参考スコア(独自算出の注目度): 1.5332765533180028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) agents often struggle with efficiency and performance in complex environments. We propose a novel framework that uses a Large Language Model (LLM) to dynamically generate a curriculum over available actions, enabling the agent to incorporate each action individually. We apply this framework to the game of Blackjack, where the LLM creates a multi-stage training path that progressively introduces complex actions to a Tabular Q-Learning and a Deep Q-Network (DQN) agent. Our evaluation in a realistic 8-deck simulation over 10 independent runs demonstrates significant performance gains over standard training methods. The curriculum-based approach increases the DQN agent's average win rate from 43.97% to 47.41%, reduces the average bust rate from 32.9% to 28.0%, and accelerates the overall workflow by over 74%, with the agent's full training completing faster than the baseline's evaluation phase alone. These results validate that LLM-guided curricula can build more effective, robust, and efficient RL agents.
- Abstract(参考訳): 強化学習(RL)エージェントは複雑な環境で効率と性能に苦しむことが多い。
本稿では、LLM(Large Language Model)を用いて、利用可能なアクションのカリキュラムを動的に生成し、エージェントが個々のアクションを個別に組み込むことを可能にする新しいフレームワークを提案する。
我々は、このフレームワークをBlackjackのゲームに適用し、LLMは多段階のトレーニングパスを作成し、Tabular Q-LearningとDeep Q-Network (DQN)エージェントに徐々に複雑なアクションを導入する。
10個の独立ランに対する現実的な8-deckシミュレーションによる評価は、標準トレーニング法よりも顕著な性能向上を示した。
カリキュラムベースのアプローチは、DQNエージェントの平均勝利率を43.97%から47.41%に引き上げ、平均バストレートを32.9%から28.0%に下げ、全体のワークフローを74%以上加速させる。
これらの結果は, LLM誘導のキュリキュラにより, より効率的で堅牢で効率的なRL剤が構築できることを実証した。
関連論文リスト
- Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training [63.34044358216334]
ACTOR-CURATORは、大規模言語モデルの強化学習のためのスケーラブルで完全に自動化されたカリキュラム学習フレームワークである。
経験的に、ACTOR-CURATORは一貫して一様サンプリングと強力なカリキュラムベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-24T04:19:48Z) - Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization [4.657699842837075]
大きな言語モデル(LLM)は言語タスクではうまく機能するが、協調的な認識やマルチエージェント環境でのグローバルパフォーマンスの最適化に苦慮することが多い。
本稿では、分散化された部分観測可能なマルコフ決定プロセス(Dec-POMDP)として協調を定式化し、分散実行による集中的トレーニング(CTDE)を採用する強化学習強化LDMエージェントフレームワークを提案する。
協調的な書き込みとコーディングのベンチマークでは、我々のフレームワークはシングルエージェントベースラインよりも3倍のタスク処理速度、98.7%の構造/スタイルの一貫性、コーディングにおける74.6%のテストパス率を実現している。
論文 参考訳(メタデータ) (2025-12-31T03:59:18Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。