論文の概要: Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form
Medical Question Answering Applications and Beyond
- arxiv url: http://arxiv.org/abs/2402.14259v1
- Date: Thu, 22 Feb 2024 03:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:33:14.352691
- Title: Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form
Medical Question Answering Applications and Beyond
- Title(参考訳): 単語列エントロピー:フリーフォーム医療質問応答アプリケーションにおける不確実性推定に向けて
- Authors: Zhiyuan Wang, Jinhao Duan, Chenxi Yuan, Qingyu Chen, Tianlong Chen,
Huaxiu Yao, Yue Zhang, Ren Wang, Kaidi Xu, Xiaoshuang Shi
- Abstract要約: 不確実性推定は、安全クリティカルな人間とAIのインタラクションシステムの信頼性を確保する上で重要な役割を果たす。
本稿では,ワードシーケンスエントロピー(WSE, Word-Sequence Entropy)を提案する。
We show that WSE exhibits excellent performance on accurate uncertainty Measurement under two standard criteria for correctness evaluation。
- 参考スコア(独自算出の注目度): 63.969531254692725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty estimation plays a pivotal role in ensuring the reliability of
safety-critical human-AI interaction systems, particularly in the medical
domain. However, a general method for quantifying the uncertainty of free-form
answers has yet to be established in open-ended medical question-answering (QA)
tasks, where irrelevant words and sequences with limited semantic information
can be the primary source of uncertainty due to the presence of generative
inequality. In this paper, we propose the Word-Sequence Entropy (WSE), which
calibrates the uncertainty proportion at both the word and sequence levels
according to the semantic relevance, with greater emphasis placed on keywords
and more relevant sequences when performing uncertainty quantification. We
compare WSE with 6 baseline methods on 5 free-form medical QA datasets,
utilizing 7 "off-the-shelf" large language models (LLMs), and show that WSE
exhibits superior performance on accurate uncertainty measurement under two
standard criteria for correctness evaluation (e.g., WSE outperforms existing
state-of-the-art method by 3.23% AUROC on the MedQA dataset). Additionally, in
terms of the potential for real-world medical QA applications, we achieve a
significant enhancement in the performance of LLMs when employing sequences
with lower uncertainty, identified by WSE, as final answers (e.g., +6.36%
accuracy improvement on the COVID-QA dataset), without requiring any additional
task-specific fine-tuning or architectural modifications.
- Abstract(参考訳): 不確実性推定は、特に医療領域において、安全クリティカルな人間とAIの相互作用システムの信頼性を確保する上で重要な役割を果たす。
しかし, フリーフォーム回答の不確かさを定量化するための一般的な手法は, 限定的な意味情報を持つ無関係な単語やシーケンスが生成的不等式の存在による不確実性の原因となるような, オープンな医療質問応答(QA)タスクにおいてはまだ確立されていない。
本稿では,単語列エントロピー(word-sequence entropy, wse)を提案する。単語列エントロピー(word-sequence entropy, wse)は,単語とシーケンスレベルの不確かさの比率を意味的関連性に応じて規定する。
7つの"オフ・ザ・シェルフ"大規模言語モデル(llms)を用いた5つのフリー形式の医療用qaデータセットにおいて、wseと6つのベースライン手法を比較し、wseが2つの標準性評価基準の下で正確な不確実性測定において優れた性能を示すことを示した(例えば、medqaデータセットの既存のstate-of-the-artメソッドを3.23%aurocで上回っている)。
さらに、実世界の医療QA応用の可能性の観点からは、追加のタスク固有の微調整やアーキテクチャの変更を必要とせず、WSEが最終回答として特定した、低い不確実性を持つシーケンス(+6.36%の精度改善など)を用いる場合のLCMの性能を著しく向上させる。
関連論文リスト
- Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Evaluating AI systems under uncertain ground truth: a case study in
dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Modeling Disagreement in Automatic Data Labelling for Semi-Supervised
Learning in Clinical Natural Language Processing [2.016042047576802]
放射線学報告における観測検出問題に応用した最先端の予測モデルからの不確実性推定の品質について検討する。
論文 参考訳(メタデータ) (2022-05-29T20:20:49Z) - Bayesian autoencoders with uncertainty quantification: Towards
trustworthy anomaly detection [78.24964622317634]
本研究では, ベイズオートエンコーダ (BAEs) の定式化により, 全体の異常不確かさを定量化する。
不確実性の質を評価するために,不確実性の予測を拒否するオプションを追加して,異常を分類する作業を検討する。
本実験は,BAEと総異常不確かさが,ベンチマークデータセットと製造用実データセットのセットに与える影響を実証するものである。
論文 参考訳(メタデータ) (2022-02-25T12:20:04Z) - Distribution-Free Federated Learning with Conformal Predictions [0.0]
フェデレートラーニングは、患者のプライバシーを維持しながら、別々の機関のデータセットを活用することを目的としている。
キャリブレーションの低さと解釈可能性の欠如は、フェデレートされたモデルの臨床実践への広範な展開を妨げる可能性がある。
本稿では,適応型コンフォメーション・フレームワークを連携学習に組み込むことにより,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-10-14T18:41:17Z) - Q-Pain: A Question Answering Dataset to Measure Social Bias in Pain
Management [5.044336341666555]
痛み管理の文脈におけるQAのバイアスを評価するためのデータセットであるQ-Painを紹介する。
本稿では, 治療決定の際に生じる潜在的なバイアスを測定するための, 実験設計のサンプルを含む, 厳密な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T21:55:28Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。