論文の概要: Reliability Testing for Natural Language Processing Systems
- arxiv url: http://arxiv.org/abs/2105.02590v1
- Date: Thu, 6 May 2021 11:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:38:29.920917
- Title: Reliability Testing for Natural Language Processing Systems
- Title(参考訳): 自然言語処理システムの信頼性テスト
- Authors: Samson Tan, Shafiq Joty, Kathy Baxter, Araz Taeihagh, Gregory A.
Bennett, Min-Yen Kan
- Abstract要約: 信頼性テストの必要性を議論し、説明責任の改善に関する既存の作業の中でコンテキスト化しています。
我々は,この目的のために,信頼性テストを開発するためのフレームワークを通じて,敵の攻撃を再構築する方法を示す。
- 参考スコア(独自算出の注目度): 14.393308846231083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Questions of fairness, robustness, and transparency are paramount to address
before deploying NLP systems. Central to these concerns is the question of
reliability: Can NLP systems reliably treat different demographics fairly and
function correctly in diverse and noisy environments? To address this, we argue
for the need for reliability testing and contextualize it among existing work
on improving accountability. We show how adversarial attacks can be reframed
for this goal, via a framework for developing reliability tests. We argue that
reliability testing -- with an emphasis on interdisciplinary collaboration --
will enable rigorous and targeted testing, and aid in the enactment and
enforcement of industry standards.
- Abstract(参考訳): NLPシステムを展開する前には、公平性、堅牢性、透明性に関する疑問が最重要である。
これらの懸念の中心は信頼性の問題である: NLPシステムは様々な人口動態を公平に扱い、多様でノイズの多い環境で正しく機能するか?
これに対処するために、我々は信頼性テストの必要性を議論し、説明責任を改善する既存の作業の中でそれをコンテキスト化する。
我々は,この目的のために,信頼性テストを開発するためのフレームワークを通じて,敵の攻撃を再構築する方法を示す。
学際的なコラボレーションを重視した信頼性テストは、厳格で目標とするテストを可能にし、業界標準の施行と実施を支援するだろう、と私たちは主張する。
関連論文リスト
- Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - TELLER: A Trustworthy Framework for Explainable, Generalizable and Controllable Fake News Detection [37.394874500480206]
本稿では,モデルの説明可能性,一般化性,制御性を重視した,信頼に値する偽ニュース検出のための新しいフレームワークを提案する。
これは認知と意思決定システムを統合するデュアルシステムフレームワークによって実現される。
提案手法の有効性と信頼性を実証し,4つのデータセットに対する総合的な評価結果を示す。
論文 参考訳(メタデータ) (2024-02-12T16:41:54Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - A Holistic Assessment of the Reliability of Machine Learning Systems [30.638615396429536]
本稿では,機械学習(ML)システムの信頼性に関する総合評価手法を提案する。
本フレームワークは, 分散精度, 分散シフト堅牢性, 対向ロバスト性, キャリブレーション, 分布外検出の5つの重要な特性を評価する。
異なるアルゴリズムアプローチの性能に関する洞察を提供するため、我々は最先端技術を特定し分類する。
論文 参考訳(メタデータ) (2023-07-20T05:00:13Z) - Did You Mean...? Confidence-based Trade-offs in Semantic Parsing [52.28988386710333]
タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。
次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
論文 参考訳(メタデータ) (2023-03-29T17:07:26Z) - Reliable Federated Disentangling Network for Non-IID Domain Feature [62.73267904147804]
本稿では、RFedDisと呼ばれる新しい信頼性のあるフェデレーション・ディエンタングリング・ネットワークを提案する。
我々の知る限り、提案するRFedDisは、明らかな不確実性と特徴の混在に基づくFLアプローチを開発する最初の試みである。
提案するRFedDisは,他の最先端FL手法と比較して信頼性の高い優れた性能を提供する。
論文 参考訳(メタデータ) (2023-01-30T11:46:34Z) - Demonstrating Software Reliability using Possibly Correlated Tests:
Insights from a Conservative Bayesian Approach [2.152298082788376]
我々は、実行が独立したことを「疑う」という非公式な概念を定式化する。
我々は、独立仮定が、評価において保守主義を損なうことができる範囲を明らかにする技術を開発する。
論文 参考訳(メタデータ) (2022-08-16T20:27:47Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。