論文の概要: Learning and Improving Backgammon Strategy
- arxiv url: http://arxiv.org/abs/2504.02221v1
- Date: Thu, 03 Apr 2025 02:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:38.015347
- Title: Learning and Improving Backgammon Strategy
- Title(参考訳): バックギャモン戦略の学習と改善
- Authors: Gregory R. Galperin,
- Abstract要約: オンライン手法とオフライン手法の特徴を組み合わせた新しい学習手法が提示される。
現在のチャンピオンである人間やコンピュータのバックギャモンプレイヤーと同じくらい、あるいはおそらくは良いレベルのプレーが達成されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A novel approach to learning is presented, combining features of on-line and off-line methods to achieve considerable performance in the task of learning a backgammon value function in a process that exploits the processing power of parallel supercomputers. The off-line methods comprise a set of techniques for parallelizing neural network training and $TD(\lambda)$ reinforcement learning; here Monte-Carlo ``Rollouts'' are introduced as a massively parallel on-line policy improvement technique which applies resources to the decision points encountered during the search of the game tree to further augment the learned value function estimate. A level of play roughly as good as, or possibly better than, the current champion human and computer backgammon players has been achieved in a short period of learning.
- Abstract(参考訳): 並列スーパーコンピュータの処理能力を利用するプロセスにおいて、バックギャモン値関数を学習するタスクにおいて、オンラインおよびオフラインの手法の特徴を組み合わせた新たな学習方法が提示される。
オフライン手法は、ニューラルネットワークトレーニングを並列化する一連の技術と、強化学習の$TD(\lambda)$である。ここで、モンテカルロ ``Rollouts'' は、ゲームツリーの探索中に遭遇する決定ポイントにリソースを適用し、学習された値関数の推定をさらに増大させる、非常に並列なオンラインポリシー改善技術として導入される。
現在のチャンピオンである人間やコンピュータのバックギャモンプレイヤーと同じくらい、あるいはおそらくは良いレベルのプレイが短期間の学習で達成されている。
関連論文リスト
- Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.657454056329875]
LLMを利用したマルチエージェントゲームのための新しいスキル獲得手法STRATEGISTを提案する。
本手法はモンテカルロ木探索による自己再生シミュレーションにより品質フィードバックを収集する。
ゲームにおけるアクションプランニングと対話生成の両面において,我々の手法をどのように利用できるかを紹介する。
論文 参考訳(メタデータ) (2024-08-20T08:22:04Z) - ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games [19.629369435528094]
本稿では,多様なデモ参加者によるゼロサムゲームのオフラインデータセットから,各トラジェクトリの悪用レベルを推定するための新しい手法を提案する。
評価された搾取レベルをオフライン学習に組み込んで,支配的戦略の影響を最大化する。
論文 参考訳(メタデータ) (2024-02-28T17:44:02Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。