Fugu-MT 論文翻訳(概要): A Comprehensive Evaluation of Four End-To-End AI Autopilots Using CCTest and the Carla Leaderboard

論文の概要: A Comprehensive Evaluation of Four End-To-End AI Autopilots Using CCTest and the Carla Leaderboard

arxiv url: http://arxiv.org/abs/2501.12090v1
Date: Tue, 21 Jan 2025 12:33:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.656009
Title: A Comprehensive Evaluation of Four End-To-End AI Autopilots Using CCTest and the Carla Leaderboard
Title（参考訳）: CCTestとCarla Leaderboardを用いた4つのエンドツーエンドAIオートパイロットの総合評価
Authors: Changwen Li, Joseph Sifakis, Rongjie Yan, Jian Zhang,
Abstract要約: クリティカルな設定テストアプローチを、4つのエンドツーエンドのオープンオートパイロット、Transfuser、InterFuser、MILE、LMDriverに適用する。まず、クリティカルな設定テストアプローチを、4つのエンドツーエンドのオープンオートパイロット、Transfuser、InterFuser、MILE、LMDriverに適用する。第2に、Carla Leaderboardで実施した4つのオートパイロットの評価と、クリティカルな構成をテストした結果を比較した。
参考スコア（独自算出の注目度）: 6.229766691427486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scenario-based testing is currently the dominant simulation-based validation approach for ADS. Its effective application raises two interrelated issues. The first is the choice of the method used to generate scenarios, based on various criteria such as risk, degree of autonomy, degree of coverage and representativeness, and complexity. The other is the choice of the evaluation method for estimating the safety and performance of the system under test. This work extends a study of the critical configuration testing (CCTest) approach we have already applied to four open modular autopilots. This approach differs from general scenario-based approaches in that it uses only realistic, potentially safe critical scenarios. It enables an accurate assessment of the ability to drive safely in critical situations for which feasible safety policies exist. Any incident observed in the simulation involves the failure of a tested autopilot. The contribution of this paper is twofold. First, we apply the critical configuration testing approach to four end-to-end open autopilots, Transfuser, InterFuser, MILE and LMDriver, and compare their test results with those of the four modular open autopilots previously tested with the same approach implemented in the Carla simulation environment. This comparison identifies both differences and similarities in the failures of the two autopilot types in critical situations. Secondly, we compare the evaluations of the four autopilots carried out in the Carla Leaderboard with our results obtained by testing critical configurations. This comparison reveals significant discrepancies, reflecting differences in test case generation criteria and risk assessment methods. It underlines the need to work towards the development of objective assessment methods combining qualitative and quantitative criteria.
Abstract（参考訳）: シナリオベースのテストは、現在、ADSの主要なシミュレーションベースの検証アプローチである。その効果的な応用は2つの相互関係の問題を引き起こす。 1つ目は、リスク、自律性の度合い、カバレッジの度合いと代表性、複雑さといった様々な基準に基づいてシナリオを生成する方法の選択である。もう1つは、テスト中のシステムの安全性と性能を推定する評価方法の選択である。この作業は、4つのオープンな自動パイロットに適用したクリティカルな設定テスト(CCTest)アプローチの研究を拡張します。このアプローチは、現実的で潜在的に安全なシナリオのみを使用するという、一般的なシナリオベースのアプローチとは異なる。実現可能な安全政策が存在する重要な状況において、安全運転能力の正確な評価を可能にする。シミュレーションで観察されるあらゆる事故は、テストされたオートパイロットの故障を含む。本論文の貢献は2つある。まず、4つのエンドツーエンドのオープンオートパイロット、Transfuser、InterFuser、MILE、LMDriverにクリティカルな設定テストアプローチを適用し、Carlaシミュレーション環境で実装されたのと同じアプローチで以前にテストされた4つのモジュールオープンオートパイロットの試験結果と比較する。この比較は、臨界状況における2つのオートパイロットタイプの障害の違いと類似点の両方を識別する。次に、Carla Leaderboardで実施した4つのオートパイロットの評価結果と、クリティカルな構成をテストした結果を比較した。この比較は、テストケース生成基準とリスク評価方法の違いを反映して、大きな相違点を明らかにした。質的基準と量的基準を組み合わせた客観的評価手法の開発に向けた取り組みの必要性を浮き彫りにする。

関連論文リスト

Misbehavior Forecasting for Focused Autonomous Driving Systems Testing [2.7733556309376692]
既存のバグフィニング技術は信頼性が低いか高価なかのどちらかだ。本稿では,誤動作予測器を用いて近距離ミスを識別する手法であるForeseeを提案する。フォアシーは、これまで未知の障害に遭遇した候補者の近辺で、局所的なファジッシングを行う。
論文参考訳（メタデータ） (2025-12-21T17:17:49Z)
CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine [73.74077186298523]
CoReVLAは、自動運転のための継続的学習フレームワークである。データコレクションとビヘイビアリファインメントの2段階プロセスを通じて、ロングテールシナリオのパフォーマンスを改善する。 CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96DSの最先端手法と15%SRの長期的安全クリティカルシナリオで性能を向上する。
論文参考訳（メタデータ） (2025-09-19T13:25:56Z)
Testing Autonomous Driving Systems -- What Really Matters and What Doesn't [6.229766691427486]
本稿では,既存のテスト手法を本質的な妥当性と妥当性の観点から比較する枠組みを提案する。多くの手法がこれらの要件を満たさないことを示している。ほとんどの重要なテスト手法は、オートパイロットの専門的な運用能力を考慮していないことが示されている。
論文参考訳（メタデータ） (2025-07-18T05:09:15Z)
Pseudo-Simulation for Autonomous Driving [54.0732376977553]
既存の自動運転車(AV)の評価パラダイムは、重大な制限に直面している。現実世界の評価は、安全上の懸念と現実主義の欠如のためにしばしば困難である。オープンループ評価は、一般的に複合的なエラーを見落としているメトリクスに依存する。
論文参考訳（メタデータ） (2025-06-04T17:57:53Z)
An LSTM-based Test Selection Method for Self-Driving Cars [1.3450023647228841]
本研究は、自動運転車の車線維持システムにおけるテスト選択問題に対処する。角度や長さなどの道路セグメントの特徴を抽出し,シーケンスとして処理した。提案したモデルと機械学習ベースのテストセレクタを比較した。
論文参考訳（メタデータ） (2025-01-07T15:44:06Z)
SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文参考訳（メタデータ） (2024-11-14T17:53:35Z)
Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文参考訳（メタデータ） (2024-09-19T14:36:00Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving [59.705635382104454]
本稿では,E2E-ADシステムのマルチ能力をクローズドループで評価するための最初のベンチマークであるBench2Driveを紹介する。我々は最先端のE2E-ADモデルを実装し、Bench2Driveで評価し、現状と今後の方向性について洞察を提供する。
論文参考訳（メタデータ） (2024-06-06T09:12:30Z)
Rigorous Simulation-based Testing for Autonomous Driving Systems -- Targeting the Achilles' Heel of Four Open Autopilots [6.229766691427486]
本稿では,シナリオを単純なものに分割した厳密なテスト手法を提案する。クリティカルな状況において、車両をテスト対象とするクリティカルな構成のテストケースを生成します。テストケースでは、Apollo、Autoware、CarlaとLGSVLのオートパイロットに重大な欠陥が見られる。
論文参考訳（メタデータ） (2024-05-27T08:06:21Z)
Automated System-level Testing of Unmanned Aerial Systems [2.2249176072603634]
国際安全基準の主な要件は、アビオニクスソフトウェアシステムの厳格なシステムレベルのテストを実行することである。提案したアプローチ(AITester)は、モデルベースのテストと人工知能(AI)技術を使用して、さまざまなテストシナリオを自動生成、実行、評価する。
論文参考訳（メタデータ） (2024-03-23T14:47:26Z)
Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-08T07:05:36Z)
Two is Better Than One: Digital Siblings to Improve Autonomous Driving Testing [10.518360486008964]
複数の汎用シミュレータ上で、与えられた自動運転車をテストするマルチシミュレータアプローチであるデジタルシミュレータの概念を導入する。我々は、このようなマルチシミュレーターアプローチを、大規模なテストケースにおいて、物理的にスケールした自動運転車のデジタル双対に対して実証的に比較する。実験により,デジタル双子の故障予測において,デジタル兄弟によるアンサンブル故障予測器が個々のシミュレータよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-14T04:10:56Z)
Realistic Safety-critical Scenarios Search for Autonomous Driving System via Behavior Tree [8.286351881735191]
本研究では,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。
論文参考訳（メタデータ） (2023-05-11T06:53:03Z)
Uncertainty Quantification of Collaborative Detection for Self-Driving [12.590332512097698]
連結車両と自律車両(CAV)間の情報共有は、自動運転のための協調物体検出の性能を向上させる。しかし、CAVは実用上の課題のため、まだ物体検出に不確実性を持っている。我々の研究は、協調物体検出の不確かさを最初に見積もるものである。
論文参考訳（メタデータ） (2022-09-16T20:30:45Z)
Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文参考訳（メタデータ） (2021-12-23T12:30:36Z)
Probabilistic Ranking-Aware Ensembles for Enhanced Object Detections [50.096540945099704]
本稿では,検知器から箱を囲むことの信頼性を向上するPRAE(Probabilistic Ranking Aware Ensemble)という新しいアンサンブルを提案する。また,異なる数の箱を扱う必要性によって生じる信頼の不均衡問題に対処するためのbanditアプローチも導入する。
論文参考訳（メタデータ） (2021-05-07T09:37:06Z)
Generating and Characterizing Scenarios for Safety Testing of Autonomous Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文参考訳（メタデータ） (2021-03-12T17:00:23Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)
Pass-Fail Criteria for Scenario-Based Testing of Automated Driving Systems [0.0]
本稿では,通常運転時の自動走行システムの動作安全性を評価するための枠組みを提案する。リスクベースのルールは、1つのテストケースからパス/フェイルを決定できない。これは、多くの個々のテストにおける統計的パフォーマンスを考慮に入れている。
論文参考訳（メタデータ） (2020-05-19T13:13:08Z)
Efficient statistical validation with edge cases to evaluate Highly Automated Vehicles [6.198523595657983]
自動運転車の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているようだ。既存の標準は、検証が要求をカバーするテストケースのセットだけを必要とする決定論的プロセスに焦点を当てています。本稿では, 自動生成テストケースを最悪のシナリオに偏り付け, システムの挙動の統計的特性を計算するための新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-04T04:35:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。