Fugu-MT 論文翻訳(概要): Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity

論文の概要: Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity

arxiv url: http://arxiv.org/abs/2402.01795v2
Date: Tue, 23 Apr 2024 03:07:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 19:16:06.704251
Title: Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity
Title（参考訳）: 周辺被覆と類似性に基づく自動運転車のFew-Shotシナリオテスト
Authors: Shu Li, Jingxuan Yang, Honglin He, Yi Zhang, Jianming Hu, Shuo Feng,
Abstract要約: 大規模展開の前には、自律走行車(AV)の安全性能の試験と評価が不可欠である。特定のAVに対して許容されるテストシナリオの数は、テスト予算と時間に対する厳格な制約によって著しく制限されています。フェーショットテスト(FST)問題が初めてこの問題を定式化し、この問題に対処するための体系的なフレームワークを提案する。
参考スコア（独自算出の注目度）: 8.97909097472183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Testing and evaluating the safety performance of autonomous vehicles (AVs) is essential before the large-scale deployment. Practically, the number of testing scenarios permissible for a specific AV is severely limited by tight constraints on testing budgets and time. With the restrictions imposed by strictly restricted numbers of tests, existing testing methods often lead to significant uncertainty or difficulty to quantifying evaluation results. In this paper, we formulate this problem for the first time the "few-shot testing" (FST) problem and propose a systematic framework to address this challenge. To alleviate the considerable uncertainty inherent in a small testing scenario set, we frame the FST problem as an optimization problem and search for the testing scenario set based on neighborhood coverage and similarity. Specifically, under the guidance of better generalization ability of the testing scenario set on AVs, we dynamically adjust this set and the contribution of each testing scenario to the evaluation result based on coverage, leveraging the prior information of surrogate models (SMs). With certain hypotheses on SMs, a theoretical upper bound of evaluation error is established to verify the sufficiency of evaluation accuracy within the given limited number of tests. The experiment results on cut-in scenarios demonstrate a notable reduction in evaluation error and variance of our method compared to conventional testing methods, especially for situations with a strict limit on the number of scenarios.
Abstract（参考訳）: 大規模展開の前には、自律走行車(AV)の安全性能の試験と評価が不可欠である。実際、特定のAVに対して許容されるテストシナリオの数は、テスト予算と時間に対する厳格な制約によって著しく制限されます。厳格に制限されたテスト数によって課される制限により、既存のテスト手法は、評価結果の定量化に重大な不確実性や困難をもたらすことが多い。本稿では,この問題を初めてFST(Few-shot Testing)問題として定式化し,この問題に対処するための体系的枠組みを提案する。小規模なテストシナリオセットに固有のかなりの不確実性を緩和するため、FST問題を最適化問題とみなし、近隣のカバレッジと類似性に基づくテストシナリオの探索を行う。具体的には、AVに設定されたテストシナリオのより優れた一般化能力のガイダンスに基づき、サロゲートモデル(SM)の事前情報を利用して、このセットと各テストシナリオのカバレッジに基づく評価結果への寄与を動的に調整する。 SMに対する特定の仮説により、与えられた限られたテスト数内での評価精度の十分性を検証するために、理論上の評価誤差の上限が確立される。カットインシナリオに対する実験結果は,従来のテスト手法と比較して,評価誤差や分散の顕著な低減,特にシナリオ数に制限がある状況において,本手法の分散が顕著であることを示す。

関連論文リスト

COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
On the Need for a Statistical Foundation in Scenario-Based Testing of Autonomous Vehicles [4.342427756164555]
本稿では、これらの課題に対処し、厳密な安全保証を実現するために、厳密な統計基盤が不可欠であると主張している。 AVテストと確立されたソフトウェアテスト手法の並列性によって、共有研究ギャップと再利用可能なソリューションを特定します。分析の結果,シナリオベースでもマイルベースのテストでも,どちらよりも優れていないことが明らかとなった。
論文参考訳（メタデータ） (2025-05-04T22:06:23Z)
SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文参考訳（メタデータ） (2025-04-19T03:01:45Z)
Make Full Use of Testing Information: An Integrated Accelerated Testing and Evaluation Method for Autonomous Driving Systems [6.065650382599096]
本稿では、自律運転システム(ADS)の試験・評価のための統合的加速テスト・評価手法(ITEM)を提案する。本稿では,テスト情報を完全に活用するために,統合的高速化テスト・評価手法(ITEM)を提案する。実験結果から,ITEMは危険領域の形状に関わらず,低次元,高次元ともに危険領域を同定できることがわかった。
論文参考訳（メタデータ） (2025-01-21T06:59:25Z)
High-Dimensional Fault Tolerance Testing of Highly Automated Vehicles Based on Low-Rank Models [39.139025989575686]
HAVの安全性を評価するために, フォールトインジェクション(FI)試験を実施している。テストケースを完全にカバーするためには、さまざまな駆動シナリオと障害設定を検討する必要がある。低ランクスムースネス正規化行列因子化フレームワークにおけるFI試験の高速化を提案する。
論文参考訳（メタデータ） (2024-07-28T14:27:13Z)
Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文参考訳（メタデータ） (2024-06-25T08:29:32Z)
Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文参考訳（メタデータ） (2024-04-07T22:31:34Z)
Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文参考訳（メタデータ） (2023-10-30T09:46:19Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
Generalized Coverage Criteria for Combinatorial Sequence Testing [4.807321976136717]
本稿では,アクションのシーケンスとアサーションをテストベクトルとして使用するテストシステムに対して,新しいモデルベースのアプローチを提案する。我々のソリューションは、テスト品質の定量化方法、提案するカバレッジ基準に基づいて高品質なテストスイートを生成するツール、リスクを評価するフレームワークを含む。
論文参考訳（メタデータ） (2022-01-03T08:35:28Z)
Pass-Fail Criteria for Scenario-Based Testing of Automated Driving Systems [0.0]
本稿では,通常運転時の自動走行システムの動作安全性を評価するための枠組みを提案する。リスクベースのルールは、1つのテストケースからパス/フェイルを決定できない。これは、多くの個々のテストにおける統計的パフォーマンスを考慮に入れている。
論文参考訳（メタデータ） (2020-05-19T13:13:08Z)
Efficient statistical validation with edge cases to evaluate Highly Automated Vehicles [6.198523595657983]
自動運転車の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているようだ。既存の標準は、検証が要求をカバーするテストケースのセットだけを必要とする決定論的プロセスに焦点を当てています。本稿では, 自動生成テストケースを最悪のシナリオに偏り付け, システムの挙動の統計的特性を計算するための新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-04T04:35:22Z)
Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep Learning [70.72363097550483]
本研究では,画像分類における領域内不確実性に着目した。そこで本研究では,ディープアンサンブル等価スコア(DEE)を導入する。
論文参考訳（メタデータ） (2020-02-15T23:28:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。