論文の概要: Improving Robustness of AlphaZero Algorithms to Test-Time Environment Changes
- arxiv url: http://arxiv.org/abs/2509.04317v1
- Date: Thu, 04 Sep 2025 15:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.204784
- Title: Improving Robustness of AlphaZero Algorithms to Test-Time Environment Changes
- Title(参考訳): テスト時間環境変化に対するAlphaZeroアルゴリズムのロバスト性向上
- Authors: Isidoro Tamassia, Wendelin Böhmer,
- Abstract要約: 潜在的に変化するテスト環境にAlphaZeroエージェントを配置する際の問題を分析する。
標準フレームワークへの単純な変更の組み合わせによって、パフォーマンスが大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The AlphaZero framework provides a standard way of combining Monte Carlo planning with prior knowledge provided by a previously trained policy-value neural network. AlphaZero usually assumes that the environment on which the neural network was trained will not change at test time, which constrains its applicability. In this paper, we analyze the problem of deploying AlphaZero agents in potentially changed test environments and demonstrate how the combination of simple modifications to the standard framework can significantly boost performance, even in settings with a low planning budget available. The code is publicly available on GitHub.
- Abstract(参考訳): AlphaZeroフレームワークは、モンテカルロ計画と以前にトレーニングされたポリシー値ニューラルネットワークが提供する事前知識を組み合わせる標準的な方法を提供する。
AlphaZeroは通常、ニューラルネットワークがトレーニングされた環境はテスト時に変化しないと仮定する。
本稿では,AlphaZeroエージェントを潜在的に変化するテスト環境にデプロイすることの問題点を分析し,計画予算の低い設定でも,標準フレームワークへの簡単な変更の組み合わせがパフォーマンスを大幅に向上させることを示す。
コードはGitHubで公開されている。
関連論文リスト
- Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Brick Tic-Tac-Toe: Exploring the Generalizability of AlphaZero to Novel
Test Environments [29.519376857728325]
テスト環境におけるブロック位置とトレーニング環境におけるブロック位置が異なるBrick Tic-Tac-Toe (BTTT) テストベッドを紹介した。
モンテカルロ木探索(MCTS)やミニマックスのような従来のRL状態探索手法は、AlphaZeroよりも新しいテスト環境に対してより一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-07-13T06:53:46Z) - Reinforcement Learning with Brain-Inspired Modulation can Improve
Adaptation to Environmental Changes [0.9137554315375919]
我々は、最近提案されたニューロン学習規則に基づいて、各ニューロンが将来の活動を予測することで、エネルギーバランスを最適化できると仮定する。
我々は、類似の強化学習規則は、報酬予測誤差を変調するために行動確率を使用すると論じる。
新しいルールは、アルゴリズムが人間のような方法で変化に適応できるようにする重要な要素である生物学的知性の中核的な原則をカプセル化している。
論文 参考訳(メタデータ) (2022-05-19T17:39:40Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。