論文の概要: A Comprehensive Evaluation of Four End-to-End AI Autopilots Using CCTest and the Carla Leaderboard
- arxiv url: http://arxiv.org/abs/2501.12090v3
- Date: Mon, 24 Mar 2025 08:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 21:22:53.791199
- Title: A Comprehensive Evaluation of Four End-to-End AI Autopilots Using CCTest and the Carla Leaderboard
- Title(参考訳): CCTestとCarla Leaderboardを用いた4つのエンドツーエンドAIオートパイロットの総合評価
- Authors: Changwen Li, Joseph Sifakis, Rongjie Yan, Jian Zhang,
- Abstract要約: 自動運転システムのためのエンドツーエンドのAIオートパイロットは、従来のモジュラーオートパイロットに代わる有望な選択肢として登場した。
彼らは、非決定性、非説明可能性、異常など、AIシステムのよく知られた問題に悩まされている。
本稿では,4つのオープンなモジュールオートパイロットに適用されたクリティカルな構成テスト手法について検討する。
- 参考スコア(独自算出の注目度): 6.229766691427486
- License:
- Abstract: End-to-end AI autopilots for autonomous driving systems have emerged as a promising alternative to traditional modular autopilots, offering the potential to reduce development costs and mitigate defects arising from module composition. However, they suffer from the well-known problems of AI systems such as non-determinism, non-explainability, and anomalies. This naturally raises the question of their evaluation and, in particular, their comparison with existing modular solutions. This work extends a study of the critical configuration testing (CCTest) approach that has been applied to four open modular autopilots. This approach differs from others in that it generates test cases ensuring safe control policies are possible for the tested autopilots. This enables an accurate assessment of the ability to drive safely in critical situations, as any incident observed in the simulation involves the failure of a tested autopilot. The contribution of this paper is twofold. Firstly, we apply the CCTest approach to four end-to-end open autopilots, InterFuser, MILE, Transfuser, and LMDrive, and compare their test results with those of the four modular open autopilots previously tested with the same approach implemented in the Carla simulation environment. This comparison identifies both differences and similarities in the failures of the two autopilot types in critical configurations. Secondly, we compare the evaluations of the four autopilots carried out in the Carla Leaderboard with the CCTest results. This comparison reveals significant discrepancies, reflecting differences in test case generation criteria and risk assessment methods. It underlines the need to work towards the development of objective assessment methods combining qualitative and quantitative criteria.
- Abstract(参考訳): 自律走行システムのためのエンドツーエンドのAIオートパイロットは、従来のモジュラーオートパイロットに代わる有望な代替品として登場し、開発コストを削減し、モジュール構成に起因する欠陥を軽減する可能性を秘めている。
しかし、それらは非決定性、非説明可能性、異常といったAIシステムのよく知られた問題に悩まされている。
このことは、それらの評価、特に既存のモジュラーソリューションとの比較に関する疑問を自然に提起する。
この研究は、4つのオープンなモジュール自動パイロットに適用されたCCTest(Critical configuration testing)アプローチの研究を拡張した。
このアプローチは他の方法と異なり、テストされたオートパイロットに対して安全なコントロールポリシーを可能にするためにテストケースを生成する。
これにより、シミュレーションで観察されたあらゆる事故がテストされたオートパイロットの故障を伴うため、重要な状況下で安全に運転する能力の正確な評価が可能になる。
本論文の貢献は2つある。
まず、CCTestのアプローチを、InterFuser、MILE、Transfuser、LMDriveの4つのエンドツーエンドオープンオートパイロットに適用し、Carlaシミュレーション環境で実装されたのと同じアプローチで以前にテストされた4つのモジュールオープンオートパイロットの試験結果と比較する。
この比較は、2つのオートパイロットタイプがクリティカルな構成で失敗する際の相違点と類似点の両方を識別する。
次に,Carla Leaderboardで実施した4つのオートパイロットの評価とCCTestの結果を比較した。
この比較は、テストケース生成基準とリスク評価方法の違いを反映して、大きな相違点を明らかにした。
質的基準と量的基準を組み合わせた客観的評価手法の開発に向けた取り組みの必要性を浮き彫りにする。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Rigorous Simulation-based Testing for Autonomous Driving Systems -- Targeting the Achilles' Heel of Four Open Autopilots [6.229766691427486]
本稿では,シナリオを単純なものに分割した厳密なテスト手法を提案する。
クリティカルな状況において、車両をテスト対象とするクリティカルな構成のテストケースを生成します。
テストケースでは、Apollo、Autoware、CarlaとLGSVLのオートパイロットに重大な欠陥が見られる。
論文 参考訳(メタデータ) (2024-05-27T08:06:21Z) - Automated System-level Testing of Unmanned Aerial Systems [2.2249176072603634]
国際安全基準の主な要件は、アビオニクスソフトウェアシステムの厳格なシステムレベルのテストを実行することである。
提案したアプローチ(AITester)は、モデルベースのテストと人工知能(AI)技術を使用して、さまざまなテストシナリオを自動生成、実行、評価する。
論文 参考訳(メタデータ) (2024-03-23T14:47:26Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Realistic Safety-critical Scenarios Search for Autonomous Driving System
via Behavior Tree [8.286351881735191]
本研究では,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。
提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。
論文 参考訳(メタデータ) (2023-05-11T06:53:03Z) - Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文 参考訳(メタデータ) (2021-12-23T12:30:36Z) - Generating and Characterizing Scenarios for Safety Testing of Autonomous
Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。
次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。
事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文 参考訳(メタデータ) (2021-03-12T17:00:23Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Pass-Fail Criteria for Scenario-Based Testing of Automated Driving
Systems [0.0]
本稿では,通常運転時の自動走行システムの動作安全性を評価するための枠組みを提案する。
リスクベースのルールは、1つのテストケースからパス/フェイルを決定できない。
これは、多くの個々のテストにおける統計的パフォーマンスを考慮に入れている。
論文 参考訳(メタデータ) (2020-05-19T13:13:08Z) - Efficient statistical validation with edge cases to evaluate Highly
Automated Vehicles [6.198523595657983]
自動運転車の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているようだ。
既存の標準は、検証が要求をカバーするテストケースのセットだけを必要とする決定論的プロセスに焦点を当てています。
本稿では, 自動生成テストケースを最悪のシナリオに偏り付け, システムの挙動の統計的特性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-04T04:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。