論文の概要: Certus: A domain specific language for confidence assessment in assurance cases
- arxiv url: http://arxiv.org/abs/2505.01894v1
- Date: Sat, 03 May 2025 19:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.3225
- Title: Certus: A domain specific language for confidence assessment in assurance cases
- Title(参考訳): Certus:保証事例における信頼度評価のためのドメイン固有言語
- Authors: Simon Diemert, Jens H. Weber,
- Abstract要約: 本稿では,量的信頼度評価のためのドメイン固有言語であるCertusを紹介する。
ユーザーはファジィセットで自信を記述し、曖昧だが言語的に意味のある用語を使って判断を表現できる。
言語の概念を実証するために、Certusは自動車分野の作業例に適用される。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assurance cases (ACs) are prepared to argue that a system has satisfied critical quality attributes. Many methods exist to assess confidence in ACs, including quantitative methods that represent confidence numerically. While quantitative methods are attractive in principle, existing methods suffer from issues related to interpretation, subjectivity, scalability, dialectic reasoning, and trustworthiness, which have limited their adoption. This paper introduces Certus, a domain specific language for quantitative confidence assessment. In Certus, users describe their confidence with fuzzy sets, which allow them to represent their judgment using vague, but linguistically meaningful terminology. Certus includes syntax to specify confidence propagation using expressions that can be easily inspected by users. To demonstrate the concept of the language, Certus is applied to a worked example from the automotive domain.
- Abstract(参考訳): 保証ケース(AC)は、システムが臨界品質特性を満足していると主張するように準備されている。
自信を数値的に表す定量的手法を含む、ACの信頼性を評価するための多くの方法が存在する。
量的手法は原則として魅力的であるが、既存の手法は解釈、主観性、拡張性、弁証的推論、信頼性に関する問題に悩まされ、採用が制限されている。
本稿では,定量的信頼度評価のためのドメイン固有言語であるCertusを紹介する。
Certusでは、ユーザーはファジィセットで自信を表現し、曖昧だが言語的に意味のある用語を使って判断を表現できる。
Certusには、ユーザが容易に検査できる式を使用して、信頼性の伝搬を指定する構文が含まれている。
言語の概念を実証するために、Certusは自動車分野の作業例に適用される。
関連論文リスト
- MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。
McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-02-20T05:09:29Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Trustworthiness for an Ultra-Wideband Localization Service [2.4979362117484714]
本稿では,超広帯域自己ローカライゼーションのための総合的信頼性評価フレームワークを提案する。
我々の目標は、客観的な証拠に基づいてシステムの信頼性を評価するためのガイダンスを提供することである。
我々のアプローチは、結果の信頼性指標が、選択された現実世界の脅威に対応することを保証します。
論文 参考訳(メタデータ) (2024-08-10T11:57:10Z) - A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。
このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。
LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文 参考訳(メタデータ) (2024-02-21T08:20:06Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。