論文の概要: Checklist to Transparently Define Test Oracles for TP, FP, and FN
Objects in Automated Driving
- arxiv url: http://arxiv.org/abs/2308.07106v1
- Date: Mon, 14 Aug 2023 12:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:16:10.488786
- Title: Checklist to Transparently Define Test Oracles for TP, FP, and FN
Objects in Automated Driving
- Title(参考訳): 自動運転におけるTP、FP、FNオブジェクトのテストOracleを透過的に定義するチェックリスト
- Authors: Michael Hoss
- Abstract要約: Oracleの透明性は、テスト結果と安全性のケースを比較するために必要です。
本稿では、オラクルの振る舞いに影響を与える機能面と実装の詳細のチェックリストを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Popular test oracles for the perception subsystem of driving automation
systems identify true-positive (TP), false-positive (FP), and false-negative
(FN) objects. Oracle transparency is needed for comparing test results and for
safety cases. To date, there exists a common notion of TPs, FPs, and FNs in the
field, but apparently no published way to comprehensively define their oracles.
Therefore, this paper provides a checklist of functional aspects and
implementation details that affect the oracle behavior. Besides labeling
policies of the test set, we cover fields of view, occlusion handling,
safety-relevant areas, matching criteria, temporal and probabilistic issues,
and further aspects. Even though our checklist can hardly be formalized, it can
help practitioners maximize the transparency of their oracles, which, in turn,
makes statements on object perception more reliable and comparable.
- Abstract(参考訳): 運転自動化システムの知覚サブシステムに対する一般的なテストオラクルは、真陽性(TP)、偽陽性(FP)、偽陰性(FN)のオブジェクトを識別する。
Oracleの透明性は、テスト結果と安全ケースを比較するために必要です。
今のところ、この分野にはTP、FP、FNの共通概念があるが、それらのオラクルを包括的に定義する方法は明らかにされていない。
そこで本稿では,オラクルの振る舞いに影響を与える機能面と実装の詳細のチェックリストを提供する。
テストセットのポリシーのラベル付けに加えて、視野、咬合処理、安全関連領域、基準の一致、時間的および確率的問題、その他の側面をカバーする。
私たちのチェックリストはほとんど形式化できませんが、実践者が託宣の透明性を最大化するのに役立ちます。
関連論文リスト
- OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [27.89053798151106]
OpenFactCheckは、大規模な言語モデルのための統合された事実性評価フレームワークである。
OpenFactCheckは、 (i) CUSTCHECKER、 (ii) LLMEVAL、 (iii) CHECKEREVALの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - Safeguarding DeFi Smart Contracts against Oracle Deviations [1.183723503328567]
OVerは、分散金融(DeFi)プロトコルの振る舞いを「歪んだ」オラクル入力で自動的に分析するように設計されたフレームワークである。
本稿では,様々なDeFiプロトコルを含む10のベンチマークをOVerで解析できることを示す。
論文 参考訳(メタデータ) (2024-01-11T17:02:31Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - DARTH: Holistic Test-time Adaptation for Multiple Object Tracking [87.72019733473562]
複数物体追跡(MOT)は、自律運転における知覚システムの基本的構成要素である。
運転システムの安全性の追求にもかかわらず、テスト時間条件における領域シフトに対するMOT適応問題に対する解決策は提案されていない。
我々はMOTの総合的なテスト時間適応フレームワークであるDARTHを紹介する。
論文 参考訳(メタデータ) (2023-10-03T10:10:42Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - CoP: Factual Inconsistency Detection by Controlling the Preference [45.4045488637761]
本稿では、生成モデルの好みをプロンプトの助けを借りて制御することで、CoPという教師なしのフレームワークを提案する。
適切に設計されたプロンプトにより、我々のフレームワークは特定の嗜好を評価し、きめ細かい不整合のカテゴリの測定に役立てることができる。
実験の結果,本フレームワークは3つの現実的不整合検出タスクにおいて,新たなSOTA結果を実現することがわかった。
論文 参考訳(メタデータ) (2022-12-03T13:05:24Z) - FAT Forensics: A Python Toolbox for Implementing and Deploying Fairness,
Accountability and Transparency Algorithms in Predictive Systems [69.24490096929709]
FAT ForensicsというオープンソースのPythonパッケージを開発しました。
予測アルゴリズムの重要な公平性、説明可能性、透明性を検査することができる。
私たちのツールボックスは、予測パイプラインのすべての要素を評価することができます。
論文 参考訳(メタデータ) (2022-09-08T13:25:02Z) - Detecting Anomalous Event Sequences with Temporal Point Processes [28.997992932163008]
時間点プロセス(TPP)における異常な連続イベントシーケンスをオフ・オブ・ディストリビューション(OoD)検出として検出する問題について検討する。
まず,GoF(Goness-of-fit)テストを用いて,この問題にどのようにアプローチできるかを示す。
次に、TPPの一般的なGoF統計の限界を実証し、これらの欠点に対処する新しいテストを提案する。
論文 参考訳(メタデータ) (2021-06-08T15:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。