論文の概要: A Comprehensive Evaluation of Four End-To-End AI Autopilots Using CCTest and the Carla Leaderboard
- arxiv url: http://arxiv.org/abs/2501.12090v1
- Date: Tue, 21 Jan 2025 12:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:31.472999
- Title: A Comprehensive Evaluation of Four End-To-End AI Autopilots Using CCTest and the Carla Leaderboard
- Title(参考訳): CCTestとCarla Leaderboardを用いた4つのエンドツーエンドAIオートパイロットの総合評価
- Authors: Changwen Li, Joseph Sifakis, Rongjie Yan, Jian Zhang,
- Abstract要約: クリティカルな設定テストアプローチを、4つのエンドツーエンドのオープンオートパイロット、Transfuser、InterFuser、MILE、LMDriverに適用する。
まず、クリティカルな設定テストアプローチを、4つのエンドツーエンドのオープンオートパイロット、Transfuser、InterFuser、MILE、LMDriverに適用する。
第2に、Carla Leaderboardで実施した4つのオートパイロットの評価と、クリティカルな構成をテストした結果を比較した。
- 参考スコア(独自算出の注目度): 6.229766691427486
- License:
- Abstract: Scenario-based testing is currently the dominant simulation-based validation approach for ADS. Its effective application raises two interrelated issues. The first is the choice of the method used to generate scenarios, based on various criteria such as risk, degree of autonomy, degree of coverage and representativeness, and complexity. The other is the choice of the evaluation method for estimating the safety and performance of the system under test. This work extends a study of the critical configuration testing (CCTest) approach we have already applied to four open modular autopilots. This approach differs from general scenario-based approaches in that it uses only realistic, potentially safe critical scenarios. It enables an accurate assessment of the ability to drive safely in critical situations for which feasible safety policies exist. Any incident observed in the simulation involves the failure of a tested autopilot. The contribution of this paper is twofold. First, we apply the critical configuration testing approach to four end-to-end open autopilots, Transfuser, InterFuser, MILE and LMDriver, and compare their test results with those of the four modular open autopilots previously tested with the same approach implemented in the Carla simulation environment. This comparison identifies both differences and similarities in the failures of the two autopilot types in critical situations. Secondly, we compare the evaluations of the four autopilots carried out in the Carla Leaderboard with our results obtained by testing critical configurations. This comparison reveals significant discrepancies, reflecting differences in test case generation criteria and risk assessment methods. It underlines the need to work towards the development of objective assessment methods combining qualitative and quantitative criteria.
- Abstract(参考訳): シナリオベースのテストは、現在、ADSの主要なシミュレーションベースの検証アプローチである。
その効果的な応用は2つの相互関係の問題を引き起こす。
1つ目は、リスク、自律性の度合い、カバレッジの度合いと代表性、複雑さといった様々な基準に基づいてシナリオを生成する方法の選択である。
もう1つは、テスト中のシステムの安全性と性能を推定する評価方法の選択である。
この作業は、4つのオープンな自動パイロットに適用したクリティカルな設定テスト(CCTest)アプローチの研究を拡張します。
このアプローチは、現実的で潜在的に安全なシナリオのみを使用するという、一般的なシナリオベースのアプローチとは異なる。
実現可能な安全政策が存在する重要な状況において、安全運転能力の正確な評価を可能にする。
シミュレーションで観察されるあらゆる事故は、テストされたオートパイロットの故障を含む。
本論文の貢献は2つある。
まず、4つのエンドツーエンドのオープンオートパイロット、Transfuser、InterFuser、MILE、LMDriverにクリティカルな設定テストアプローチを適用し、Carlaシミュレーション環境で実装されたのと同じアプローチで以前にテストされた4つのモジュールオープンオートパイロットの試験結果と比較する。
この比較は、臨界状況における2つのオートパイロットタイプの障害の違いと類似点の両方を識別する。
次に、Carla Leaderboardで実施した4つのオートパイロットの評価結果と、クリティカルな構成をテストした結果を比較した。
この比較は、テストケース生成基準とリスク評価方法の違いを反映して、大きな相違点を明らかにした。
質的基準と量的基準を組み合わせた客観的評価手法の開発に向けた取り組みの必要性を浮き彫りにする。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Rigorous Simulation-based Testing for Autonomous Driving Systems -- Targeting the Achilles' Heel of Four Open Autopilots [6.229766691427486]
本稿では,シナリオを単純なものに分割した厳密なテスト手法を提案する。
クリティカルな状況において、車両をテスト対象とするクリティカルな構成のテストケースを生成します。
テストケースでは、Apollo、Autoware、CarlaとLGSVLのオートパイロットに重大な欠陥が見られる。
論文 参考訳(メタデータ) (2024-05-27T08:06:21Z) - Automated System-level Testing of Unmanned Aerial Systems [2.2249176072603634]
国際安全基準の主な要件は、アビオニクスソフトウェアシステムの厳格なシステムレベルのテストを実行することである。
提案したアプローチ(AITester)は、モデルベースのテストと人工知能(AI)技術を使用して、さまざまなテストシナリオを自動生成、実行、評価する。
論文 参考訳(メタデータ) (2024-03-23T14:47:26Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Realistic Safety-critical Scenarios Search for Autonomous Driving System
via Behavior Tree [8.286351881735191]
本研究では,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。
提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。
論文 参考訳(メタデータ) (2023-05-11T06:53:03Z) - Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文 参考訳(メタデータ) (2021-12-23T12:30:36Z) - Generating and Characterizing Scenarios for Safety Testing of Autonomous
Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。
次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。
事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文 参考訳(メタデータ) (2021-03-12T17:00:23Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Pass-Fail Criteria for Scenario-Based Testing of Automated Driving
Systems [0.0]
本稿では,通常運転時の自動走行システムの動作安全性を評価するための枠組みを提案する。
リスクベースのルールは、1つのテストケースからパス/フェイルを決定できない。
これは、多くの個々のテストにおける統計的パフォーマンスを考慮に入れている。
論文 参考訳(メタデータ) (2020-05-19T13:13:08Z) - Efficient statistical validation with edge cases to evaluate Highly
Automated Vehicles [6.198523595657983]
自動運転車の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているようだ。
既存の標準は、検証が要求をカバーするテストケースのセットだけを必要とする決定論的プロセスに焦点を当てています。
本稿では, 自動生成テストケースを最悪のシナリオに偏り付け, システムの挙動の統計的特性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-04T04:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。