Fugu-MT 論文翻訳(概要): Balancing the AI Strength of Roles in Self-Play Training with Regret Matching+

論文の概要: Balancing the AI Strength of Roles in Self-Play Training with Regret Matching+

arxiv url: http://arxiv.org/abs/2401.12557v2
Date: Thu, 1 Feb 2024 03:22:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 18:13:36.111599
Title: Balancing the AI Strength of Roles in Self-Play Training with Regret Matching+
Title（参考訳）: レギュレットマッチングを用いたセルフプレイトレーニングにおけるAI力のバランス
Authors: Xiaoxi Wang
Abstract要約: ゲーム内の任意のキャラクタを制御することができる一般化モデルは、実行可能な選択肢を示す。この戦略は、トレーニングフェーズ中の計算リソースと時間を保存するだけでなく、デプロイメント時のリソース要求も低減します。 Regret Matching+をベースとした簡易な手法が提案され、様々な役割を制御する際のモデルによる強度のバランスのとれたパフォーマンスが促進される。
参考スコア（独自算出の注目度）: 1.5591858554014466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When training artificial intelligence for games encompassing multiple roles, the development of a generalized model capable of controlling any character within the game presents a viable option. This strategy not only conserves computational resources and time during the training phase but also reduces resource requirements during deployment. training such a generalized model often encounters challenges related to uneven capabilities when controlling different roles. A simple method is introduced based on Regret Matching+, which facilitates a more balanced performance of strength by the model when controlling various roles.
Abstract（参考訳）: 複数の役割を含むゲームの人工知能を訓練する場合、ゲーム内の任意のキャラクタを制御できる一般化モデルの開発は実行可能な選択肢となる。この戦略は、トレーニングフェーズ中の計算リソースと時間を保存するだけでなく、デプロイメント時のリソース要求も低減します。このような一般化されたモデルのトレーニングは、異なる役割を制御する場合、しばしば不均一な能力に関連する課題に直面する。 Regret Matching+をベースとした簡易な手法が提案され、様々な役割を制御する際のモデルによる強度のバランスのとれたパフォーマンスが促進される。

関連論文リスト

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning [27.20778530252474]
SPIRALは、モデルをマルチターン、ゼロサムゲームで学習し、自身のバージョンを継続的に改善するセルフプレイフレームワークである。 SPIRALを用いることで、ゼロサムゲーム上でのセルフプレイは、広く移動する推論能力を生み出す。分析により, この伝達は, 系統的分解, 期待値計算, ケース・バイ・ケース分析という3つの認知的パターンを通じて起こることが明らかとなった。
論文参考訳（メタデータ） (2025-06-30T17:58:13Z)
Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games [36.162843233798455]
大規模言語モデル(LLM)は、強化学習(RL)中に突然高度な推論能力を示すことが観察されている。マルチシナリオRLにおける一般化を促進するためのフレームワークであるDivide-Fuse-Conquerを提案する。
論文参考訳（メタデータ） (2025-05-22T08:52:21Z)
Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-04T08:21:47Z)
Mastering the Digital Art of War: Developing Intelligent Combat Simulation Agents for Wargaming Using Hierarchical Reinforcement Learning [0.0]
対象とする観察抽象化、マルチモデル統合、ハイブリッドAIフレームワーク、階層的な強化学習フレームワークなど、包括的なアプローチを提案する。線形空間減衰を用いた局所的な観測抽象化は,RL問題を単純化し,計算効率を向上し,従来の大域的観測法よりも優れた有効性を示す。我々のハイブリッドAIフレームワークは、スクリプトエージェントとRLを同期させ、高レベルの決定にRLを、低レベルのタスクにスクリプトエージェントを活用し、適応性、信頼性、パフォーマンスを向上させる。
論文参考訳（メタデータ） (2024-08-23T18:50:57Z)
Self-Supervised Reinforcement Learning that Transfers using Random Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文参考訳（メタデータ） (2023-05-26T20:37:06Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Learning to Transfer Role Assignment Across Team Sizes [48.43860606706273]
チーム規模で役割の割り当てと移譲を学ぶためのフレームワークを提案する。ロールベースの信用割当構造を再利用することで、より大きな強化学習チームの学習プロセスが促進されることを示す。
論文参考訳（メタデータ） (2022-04-17T11:22:01Z)
Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文参考訳（メタデータ） (2022-04-04T16:18:01Z)
Robust Reinforcement Learning as a Stackelberg Game via Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。 RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文参考訳（メタデータ） (2022-02-19T03:44:05Z)
Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。 RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文参考訳（メタデータ） (2021-12-17T16:28:06Z)
Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文参考訳（メタデータ） (2021-11-23T09:27:20Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)
Learning from Learners: Adapting Reinforcement Learning Agents to be Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文参考訳（メタデータ） (2020-04-08T14:11:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。