論文の概要: Seldonian Reinforcement Learning for Ad Hoc Teamwork
- arxiv url: http://arxiv.org/abs/2503.03885v1
- Date: Wed, 05 Mar 2025 20:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:53.757884
- Title: Seldonian Reinforcement Learning for Ad Hoc Teamwork
- Title(参考訳): アドホックチームワークのためのセルドン強化学習
- Authors: Edoardo Zorzi, Alberto Castellini, Leonidas Bakopoulos, Georgios Chalkiadakis, Alessandro Farinelli,
- Abstract要約: ほとんどのオフラインRLアルゴリズムは最適なポリシーを返すが、望ましくない振る舞いに関する統計的保証は提供しない。
本研究では,セルドン最適化に触発された新しいオフラインRL手法を提案する。
エージェントは事前調整なしに新しいチームメイトと協力する必要があります。
- 参考スコア(独自算出の注目度): 47.100080234094065
- License:
- Abstract: Most offline RL algorithms return optimal policies but do not provide statistical guarantees on undesirable behaviors. This could generate reliability issues in safety-critical applications, such as in some multiagent domains where agents, and possibly humans, need to interact to reach their goals without harming each other. In this work, we propose a novel offline RL approach, inspired by Seldonian optimization, which returns policies with good performance and statistically guaranteed properties with respect to predefined undesirable behaviors. In particular, our focus is on Ad Hoc Teamwork settings, where agents must collaborate with new teammates without prior coordination. Our method requires only a pre-collected dataset, a set of candidate policies for our agent, and a specification about the possible policies followed by the other players -- it does not require further interactions, training, or assumptions on the type and architecture of the policies. We test our algorithm in Ad Hoc Teamwork problems and show that it consistently finds reliable policies while improving sample efficiency with respect to standard ML baselines.
- Abstract(参考訳): ほとんどのオフラインRLアルゴリズムは最適なポリシーを返すが、望ましくない振る舞いに関する統計的保証は提供しない。
これは、エージェントとおそらく人間が互いに害することなく目標に達するために対話する必要がある、いくつかのマルチエージェントドメインのような、安全クリティカルなアプリケーションに信頼性の問題を引き起こす可能性がある。
本研究では,セルドン最適化に触発された新しいオフラインRL手法を提案する。これは,事前定義された望ましくない動作に対して,良好な性能と統計的に保証された特性を持つポリシーを返却する。
特に、エージェントが事前調整なしで新しいチームメイトと協力しなくてはならないアドホックなチームワークの設定に重点を置いています。
我々の方法は、事前に収集されたデータセット、エージェントの候補ポリシー、および他のプレイヤーが従う可能性のあるポリシーに関する仕様のみを必要とする。
我々は,Ad Hoc Teamwork問題においてアルゴリズムを検証し,標準のMLベースラインに対するサンプル効率の向上を図りながら,信頼性の高いポリシを常に見つけることを示す。
関連論文リスト
- Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization [8.877649895977479]
オフラインマルチエージェント強化学習(英語: offline Multi-Agent Reinforcement Learning, MARL)は、事前コンパイルされたデータセットから最適なマルチエージェントポリシーを学ぶことを目的とした新興分野である。
本研究では、既存のオフラインMARLメソッドを再検討し、特定のシナリオにおいて問題となる可能性があることを示す。
In-Sample Sequential Policy Optimization (InSPO) と呼ばれる新しいオフラインMARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-10T16:19:08Z) - A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Adversarially Trained Actor Critic for Offline Reinforcement Learning [42.42451519801851]
ATACは、データカバレッジが不十分な状態でオフラインで強化学習を行うための新しいモデルなしアルゴリズムである。
D4RLベンチマークでは、ATACは一連の連続制御タスクにおいて、最先端のオフラインRLアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-02-05T01:02:46Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。