論文の概要: A Generative Machine Learning Approach to Policy Optimization in
Pursuit-Evasion Games
- arxiv url: http://arxiv.org/abs/2010.01711v2
- Date: Tue, 13 Oct 2020 19:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:32:50.310246
- Title: A Generative Machine Learning Approach to Policy Optimization in
Pursuit-Evasion Games
- Title(参考訳): ゲーミングゲームにおけるポリシー最適化のための生成機械学習アプローチ
- Authors: Shiva Navabi, Osonde A. Osoba
- Abstract要約: 我々は,「ブルー」と「レッド」という2人のエージェントの追跡回避ゲームを考える。
青の経路計画問題は不確実性の下でのシーケンシャルな意思決定問題として提示できることを示す。
生成機械学習を応用して、Blueの最適なアクションポリシーを学習する。
- 参考スコア(独自算出の注目度): 2.1320960069210484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a pursuit-evasion game [11] played between two agents, 'Blue'
(the pursuer) and 'Red' (the evader), over $T$ time steps. Red aims to attack
Blue's territory. Blue's objective is to intercept Red by time $T$ and thereby
limit the success of Red's attack. Blue must plan its pursuit trajectory by
choosing parameters that determine its course of movement (speed and angle in
our setup) such that it intercepts Red by time $T$. We show that Blue's
path-planning problem in pursuing Red, can be posed as a sequential decision
making problem under uncertainty. Blue's unawareness of Red's action policy
renders the analytic dynamic programming approach intractable for finding the
optimal action policy for Blue. In this work, we are interested in exploring
data-driven approaches to the policy optimization problem that Blue faces. We
apply generative machine learning (ML) approaches to learn optimal action
policies for Blue. This highlights the ability of generative ML model to learn
the relevant implicit representations for the dynamics of simulated
pursuit-evasion games. We demonstrate the effectiveness of our modeling
approach via extensive statistical assessments. This work can be viewed as a
preliminary step towards further adoption of generative modeling approaches for
addressing policy optimization problems that arise in the context of
multi-agent learning and planning [1].
- Abstract(参考訳): 我々は,2つのエージェント,ブルー(追っ手)とレッド(脱走者)の間で,t$の時間ステップでプレイする追跡回避ゲーム[11]について考察する。
赤はブルーの領土を攻撃しようとする。
blueの目的は、t$でredをインターセプトすることであり、redの攻撃の成功を制限することである。
ブルーは、時間差でレッドをインターセプトする動き(我々の設定の速度と角度)を決定するパラメータを選択することで、追跡軌道を計画しなければならない。
赤を追求するブルーのパスプランニング問題は,不確実性下での逐次意思決定問題として考えられる。
ブルーがレッドのアクションポリシーに気づいていないことは、ブルーの最適なアクションポリシーを見つけるための解析的動的プログラミングアプローチを惹きつけることができる。
本稿では、Blueが直面するポリシー最適化問題に対するデータ駆動アプローチの探求に興味がある。
生成機械学習(ML)アプローチを適用し、Blueの最適なアクションポリシーを学習する。
このことは、シミュレーションされた追従回避ゲームのダイナミクスについて、関連する暗黙の表現を学習する生成MLモデルの能力を強調している。
我々は,広範囲な統計的評価によるモデリング手法の有効性を示す。
この研究は、多エージェント学習と計画の文脈で生じる政策最適化問題に対処するための生成的モデリングアプローチのさらなる導入に向けた予備的なステップであると見なすことができる。
関連論文リスト
- Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。
提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T09:44:48Z) - Augmented Bayesian Policy Search [14.292685001631945]
実際には、探索は主に決定論的な政策によって行われる。
第一次ベイズ最適化(BO)法は、決定論的ポリシーを用いた探索の原則的な方法を提供する。
確率モデルに新しい平均関数を導入する。
これにより、アクション値関数を持つBOメソッドが増大する。
論文 参考訳(メタデータ) (2024-07-05T20:56:45Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文 参考訳(メタデータ) (2022-03-01T11:00:35Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。