論文の概要: Predicting Future Actions of Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2410.22459v1
- Date: Tue, 29 Oct 2024 18:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:05.899145
- Title: Predicting Future Actions of Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントの今後の行動予測
- Authors: Stephen Chung, Scott Niekum, David Krueger,
- Abstract要約: 本稿では,3種類の強化学習エージェントの今後の行動と事象予測の有効性を実験的に評価し,比較した。
エージェントの内部計算に基づいて予測を行う内部状態アプローチと、学習された世界モデルでエージェントをアンロールするシミュレーションベースのアプローチの2つのアプローチを採用する。
内部計画を使用することで、アクションを予測する場合のシミュレーションベースのアプローチと比較して、モデル品質がより堅牢であること、イベント予測の結果がより混在していることが証明される。
- 参考スコア(独自算出の注目度): 27.6973598477153
- License:
- Abstract: As reinforcement learning agents become increasingly deployed in real-world scenarios, predicting future agent actions and events during deployment is important for facilitating better human-agent interaction and preventing catastrophic outcomes. This paper experimentally evaluates and compares the effectiveness of future action and event prediction for three types of RL agents: explicitly planning, implicitly planning, and non-planning. We employ two approaches: the inner state approach, which involves predicting based on the inner computations of the agents (e.g., plans or neuron activations), and a simulation-based approach, which involves unrolling the agent in a learned world model. Our results show that the plans of explicitly planning agents are significantly more informative for prediction than the neuron activations of the other types. Furthermore, using internal plans proves more robust to model quality compared to simulation-based approaches when predicting actions, while the results for event prediction are more mixed. These findings highlight the benefits of leveraging inner states and simulations to predict future agent actions and events, thereby improving interaction and safety in real-world deployments.
- Abstract(参考訳): 強化学習エージェントが現実のシナリオでますますデプロイされるようになるにつれて、人間とエージェントの相互作用の改善と破滅的な結果の防止のために、デプロイ中の将来のエージェントアクションやイベントを予測することが重要である。
本稿では,3種類のRLエージェント(明示的計画,暗黙的計画,非計画)に対する今後の行動と事象予測の有効性を実験的に評価し,比較する。
エージェントの内部計算(例えば、計画やニューロンの活性化)に基づいて予測を行う内部状態アプローチと、学習された世界モデルでエージェントをアンロールするシミュレーションベースのアプローチの2つのアプローチを採用する。
以上の結果から,他の種類のニューロンの活性化よりも,明確な計画エージェントの計画の方が予測に有益であることが示唆された。
さらに、内部計画を用いることで、アクションを予測する場合のシミュレーションベースのアプローチよりも、モデル品質がより堅牢であること、イベント予測の結果がより混在していることが示される。
これらの知見は、内部の状態とシミュレーションを活用して、将来のエージェントアクションやイベントを予測することで、現実世界のデプロイメントにおけるインタラクションと安全性を改善することのメリットを強調している。
関連論文リスト
- Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction [4.286256266868156]
トラジェクティブ予測のためのインタラクションモデリングを強化するために,プリテキストタスクを提案するSSL-Interactionsを提案する。
エージェントインタラクションの様々な側面をカプセル化する4つの対話対応プレテキストタスクを導入する。
また,データセットからインタラクション重大シナリオをキュレートする手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:43:40Z) - Interactive Joint Planning for Autonomous Vehicles [19.479300967537675]
対話的な運転シナリオでは、あるエージェントの行動が隣人の行動に大きな影響を及ぼす。
本稿では,MPCを学習予測モデルでブリッジする対話型共同計画(Interactive Joint Planning, IJP)を提案する。
IJPは、共同最適化やサンプリングベースの計画を実行することなく、ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-27T17:48:25Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Preference Enhanced Social Influence Modeling for Network-Aware Cascade
Prediction [59.221668173521884]
本稿では,ユーザの嗜好モデルを強化することで,カスケードサイズ予測を促進する新しいフレームワークを提案する。
エンド・ツー・エンドの手法により,ユーザの情報拡散プロセスがより適応的で正確になる。
論文 参考訳(メタデータ) (2022-04-18T09:25:06Z) - TAE: A Semi-supervised Controllable Behavior-aware Trajectory Generator
and Predictor [3.6955256596550137]
軌道生成と予測は、知的車両のプランナー評価と意思決定において重要な役割を果たす。
本稿では,ドライバの動作を明示的にモデル化する行動認識型トラジェクトリ・オートエンコーダ(TAE)を提案する。
我々のモデルは、統一アーキテクチャにおける軌道生成と予測に対処し、両方のタスクに利益をもたらす。
論文 参考訳(メタデータ) (2022-03-02T17:37:44Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational
Reasoning [41.42230144157259]
本稿では,関係構造を明示的に認識し,潜在相互作用グラフによる予測を行う汎用軌道予測フレームワークを提案する。
将来の行動の不確実性を考慮すると、モデルはマルチモーダルな予測仮説を提供するように設計されている。
トレーニング効率を向上し、収束を加速するだけでなく、モデル性能も向上する2段トレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2020-03-31T02:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。