論文の概要: The Pursuit of Diversity: Multi-Objective Testing of Deep Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2510.14727v1
- Date: Thu, 16 Oct 2025 14:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.899858
- Title: The Pursuit of Diversity: Multi-Objective Testing of Deep Reinforcement Learning Agents
- Title(参考訳): 多様性の追求:深層強化学習エージェントの多目的テスト
- Authors: Antony Bartlett, Cynthia Liem, Annibale Panichella,
- Abstract要約: 安全クリティカルドメインにおける深層強化学習(DRL)エージェントのテストには、さまざまな障害シナリオの発見が必要である。
InDAGO-Nexusは,故障確率とテストシナリオの多様性を協調的に最適化する多目的探索手法である。
- 参考スコア(独自算出の注目度): 10.800983456810165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Testing deep reinforcement learning (DRL) agents in safety-critical domains requires discovering diverse failure scenarios. Existing tools such as INDAGO rely on single-objective optimization focused solely on maximizing failure counts, but this does not ensure discovered scenarios are diverse or reveal distinct error types. We introduce INDAGO-Nexus, a multi-objective search approach that jointly optimizes for failure likelihood and test scenario diversity using multi-objective evolutionary algorithms with multiple diversity metrics and Pareto front selection strategies. We evaluated INDAGO-Nexus on three DRL agents: humanoid walker, self-driving car, and parking agent. On average, INDAGO-Nexus discovers up to 83% and 40% more unique failures (test effectiveness) than INDAGO in the SDC and Parking scenarios, respectively, while reducing time-to-failure by up to 67% across all agents.
- Abstract(参考訳): 安全クリティカルドメインにおける深層強化学習(DRL)エージェントのテストには、さまざまな障害シナリオの発見が必要である。
INDAGOのような既存のツールは、単一目的の最適化を頼りにしており、失敗数の最大化に重点を置いている。
InDAGO-Nexusは、複数の多様性指標を持つ多目的進化アルゴリズムとパレートフロント選択戦略を用いて、故障確率とテストシナリオの多様性を共同で最適化する多目的探索手法である。
InDAGO-Nexusを3つのDRLエージェント(ヒューマノイドウォーカ、自動運転車、駐車エージェント)で評価した。
平均して、INDAGO-Nexusは、SDCとParkingのシナリオにおいて、INDAGOよりも最大83%、40%ユニークな障害(テストの有効性)を発見できる。
関連論文リスト
- Fault Detection for agents on power grid topology optimization: A Comprehensive analysis [1.0136215038345013]
我々は,電力グリッドシミュレーションの故障に着目し,パターンを特定し,事前に検出する。
クラスタ化によって、5つの異なるクラスタを検出し、一般的な障害タイプを特定します。
故障を事前に検出し、5種類の予測モデルを評価するためのマルチクラス予測手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:20:43Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Mix-ME: Quality-Diversity for Multi-Agent Learning [11.130914000431353]
人気のMAP-Elitesアルゴリズムのマルチエージェント版であるMix-MEを紹介する。
提案手法は,可観測性のある連続制御タスクの多種多様について評価する。
論文 参考訳(メタデータ) (2023-11-03T10:36:54Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Data-Driven Evolutionary Multi-Objective Optimization Based on
Multiple-Gradient Descent for Disconnected Pareto Fronts [6.560512252982714]
本稿では,データ駆動型進化的多目的最適化(EMO)アルゴリズムを提案する。
そのインフィル基準は、高価な客観的関数評価を行うための、有望な候補ソリューションのバッチを推奨している。
論文 参考訳(メタデータ) (2022-05-28T06:01:41Z) - Behaviour-Diverse Automatic Penetration Testing: A Curiosity-Driven
Multi-Objective Deep Reinforcement Learning Approach [3.5071575478443435]
侵入テストは、実際のアクティブな敵をエミュレートすることで、ターゲットネットワークのセキュリティを評価する上で重要な役割を果たす。
深層強化学習(Deep Reinforcement Learning)は,浸透テストのプロセスを自動化するための,有望なソリューションだと考えられている。
我々は,チェビシェフ分解批判者に対して,侵入試験における異なる目的のバランスをとる多様な敵戦略を見出すことを提案する。
論文 参考訳(メタデータ) (2022-02-22T02:34:16Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。