論文の概要: Agents Explore the Environment Beyond Good Actions to Improve Their
Model for Better Decisions
- arxiv url: http://arxiv.org/abs/2306.03408v1
- Date: Tue, 6 Jun 2023 05:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 17:11:39.732133
- Title: Agents Explore the Environment Beyond Good Actions to Improve Their
Model for Better Decisions
- Title(参考訳): エージェントがより良い意思決定のためのモデルを改善するために良い行動を超えた環境を探る
- Authors: Matthias Unverzagt
- Abstract要約: MuZeroのエージェントは、ネットワークモデルによる予測と、予測を用いた木探索による計画を組み合わせる。
我々は、エージェントに、そうでなければ探索しない環境における決定木の一部を探索させるために、これを衝動として使用します。
シンプルなボードゲームTic-Tac-Toeは、このアプローチがエージェントの意思決定能力をどのように改善するかを説明するために使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the decision-making capabilities of agents is a key challenge on
the road to artificial intelligence. To improve the planning skills needed to
make good decisions, MuZero's agent combines prediction by a network model and
planning by a tree search using the predictions. MuZero's learning process can
fail when predictions are poor but planning requires them. We use this as an
impetus to get the agent to explore parts of the decision tree in the
environment that it otherwise would not explore. The agent achieves this, first
by normal planning to come up with an improved policy. Second, it randomly
deviates from this policy at the beginning of each training episode. And third,
it switches back to the improved policy at a random time step to experience the
rewards from the environment associated with the improved policy, which is the
basis for learning the correct value expectation. The simple board game
Tic-Tac-Toe is used to illustrate how this approach can improve the agent's
decision-making ability. The source code, written entirely in Java, is
available at https://github.com/enpasos/muzero.
- Abstract(参考訳): エージェントの意思決定能力の向上は、人工知能への道のりにおける重要な課題である。
適切な意思決定を行うために必要な計画スキルを改善するために、MuZeroのエージェントは、ネットワークモデルによる予測と、予測を用いた木探索による計画を組み合わせる。
muzeroの学習プロセスは、予測が貧弱な場合には失敗するが、計画にはそれが必要だ。
我々は、エージェントに、そうでなければ探索しない環境における決定木の一部を探索させるために、これを衝動として使用します。
エージェントは、まず通常の計画によって、改善されたポリシーを策定する。
第2に、トレーニングエピソードの開始時にランダムにこの方針から逸脱する。
そして第3に、改善ポリシーをランダムな時間ステップで改善ポリシーに切り替えて、改善ポリシーに関連する環境からの報酬を経験する。
シンプルなボードゲームTic-Tac-Toeは、このアプローチがエージェントの意思決定能力をどのように改善するかを説明するために使用される。
ソースコードはJavaで書かれており、https://github.com/enpasos/muzero.comで入手できる。
関連論文リスト
- Learning Generative Interactive Environments By Trained Agent Exploration [41.94295877935867]
データ生成に強化学習に基づくエージェントを用いてモデルを改善することを提案する。
このアプローチは、モデルが順応し、うまく機能する能力を向上する多様なデータセットを生成する。
Coinrun ケーススタディの再現を含む評価の結果,GenieRedux-G は視覚的忠実度と制御性に優れていた。
論文 参考訳(メタデータ) (2024-09-10T12:00:40Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Maneuver Decision-Making Through Proximal Policy Optimization And Monte
Carlo Tree Search [0.0]
真面目な意思決定はマルコフ決定過程と見なすことができ、強化学習によって対処することができる。
エージェントはトレーニングの初期段階でランダムなアクションを使用するため、報酬を得るのが難しく、効果的な意思決定方法を学ぶのが難しい。
近似ポリシー最適化とモンテカルロ木探索に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T14:48:49Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Parametrically Retargetable Decision-Makers Tend To Seek Power [91.93765604105025]
完全に観察可能な環境では、ほとんどの報酬関数は、オプションを開いて生き続けることで力を求める最適なポリシーを持つ。
我々は、最適からランダムまで、AI意思決定のモデルから、学習と環境との対話によって得られる選択まで、さまざまなモデルを検討します。
定性的に異なる意思決定手順がエージェントに力を求めるインセンティブを与えることを示す。
論文 参考訳(メタデータ) (2022-06-27T17:39:23Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - Deciding What to Learn: A Rate-Distortion Approach [21.945359614094503]
複雑な環境では、最適ポリシーの合成が不可能になる可能性がある。
我々は,デザイナーの好みをエージェントの定型学習対象に翻訳するプロセスを自動化する。
最適ポリシーの同定におけるトンプソンサンプリングの改善を示す。
論文 参考訳(メタデータ) (2021-01-15T16:22:49Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。