論文の概要: Evaluating the Robustness of Collaborative Agents
- arxiv url: http://arxiv.org/abs/2101.05507v1
- Date: Thu, 14 Jan 2021 09:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 00:56:06.695967
- Title: Evaluating the Robustness of Collaborative Agents
- Title(参考訳): 協調エージェントのロバスト性評価
- Authors: Paul Knott, Micah Carroll, Sam Devlin, Kamil Ciosek, Katja Hofmann, A.
D. Dragan and Rohin Shah
- Abstract要約: ソフトウェアエンジニアリングにおける emphunit テストの実践から着想を得ています。
我々はこの方法論をOvercooked-AI環境のための単体テストスイートの構築に適用する。
- 参考スコア(独自算出の注目度): 25.578427956101603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order for agents trained by deep reinforcement learning to work alongside
humans in realistic settings, we will need to ensure that the agents are
\emph{robust}. Since the real world is very diverse, and human behavior often
changes in response to agent deployment, the agent will likely encounter novel
situations that have never been seen during training. This results in an
evaluation challenge: if we cannot rely on the average training or validation
reward as a metric, then how can we effectively evaluate robustness? We take
inspiration from the practice of \emph{unit testing} in software engineering.
Specifically, we suggest that when designing AI agents that collaborate with
humans, designers should search for potential edge cases in \emph{possible
partner behavior} and \emph{possible states encountered}, and write tests which
check that the behavior of the agent in these edge cases is reasonable. We
apply this methodology to build a suite of unit tests for the Overcooked-AI
environment, and use this test suite to evaluate three proposals for improving
robustness. We find that the test suite provides significant insight into the
effects of these proposals that were generally not revealed by looking solely
at the average validation reward.
- Abstract(参考訳): 深層強化学習によって訓練されたエージェントが、現実的な環境で人間と一緒に働くためには、エージェントが \emph{robust} であることを保証する必要がある。
現実世界は非常に多様であり、人間の行動はしばしばエージェントの配置に応じて変化するため、エージェントはトレーニング中に見たことのない新しい状況に遭遇する可能性が高い。
平均的なトレーニングやバリデーションの報酬を基準として頼りにできない場合、堅牢性を効果的に評価するにはどうすればよいのか?
ソフトウェア工学における \emph{unit testing} の実践から着想を得ています。
具体的には、人間と協調するAIエージェントを設計する際には、設計者は \emph{possible partner behavior} と \emph{possible state encounter} の潜在的なエッジケースを探し、これらのエッジケースにおけるエージェントの振る舞いが妥当であることを示すテストを書くべきである。
本手法をOvercooked-AI環境のための単体テストスイートの構築に適用し,このテストスイートを使用して,堅牢性向上のための3つの提案を評価する。
テストスイートは、平均的なバリデーション報酬のみに注目して、一般には明らかにされていないこれらの提案の効果に関する重要な洞察を提供する。
関連論文リスト
- Training on the Test Task Confounds Evaluation and Emergence [16.32378359459614]
テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを示します。
ベンチマーク評価において,テストタスクに対するトレーニングの効果を効果的に調整する手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T17:57:58Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Automatic Evaluation of Excavator Operators using Learned Reward
Functions [5.372817906484557]
本稿では,掘削作業者の自動評価のための新しい手法を提案する。
掘削機の内部力学と安全基準を各ステップで考慮し,性能評価を行う。
これらの外部報酬予測モデルを用いて学習したポリシーについて,より安全な解が得られた。
論文 参考訳(メタデータ) (2022-11-15T06:58:00Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment [61.24399136715106]
我々は、試験やホームワークの査定や採用・昇進の査定など、様々な査定課題における戦略的行動の課題について考察する。
我々はこのような操作を検出する方法の設計に重点を置いている。
具体的には、エージェントがピアのサブセットを評価し、後に集約されたランキングを最終的な順序付けとして出力する設定について検討する。
論文 参考訳(メタデータ) (2020-10-08T15:08:40Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。