論文の概要: Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond
- arxiv url: http://arxiv.org/abs/2402.14259v2
- Date: Mon, 18 Nov 2024 09:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:28.143405
- Title: Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond
- Title(参考訳): 単語列エントロピー:フリーフォーム医療質問応答アプリケーションにおける不確実性推定に向けて
- Authors: Zhiyuan Wang, Jinhao Duan, Chenxi Yuan, Qingyu Chen, Tianlong Chen, Yue Zhang, Ren Wang, Xiaoshuang Shi, Kaidi Xu,
- Abstract要約: 本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
- 参考スコア(独自算出の注目度): 52.246494389096654
- License:
- Abstract: Uncertainty estimation is crucial for the reliability of safety-critical human and artificial intelligence (AI) interaction systems, particularly in the domain of healthcare engineering. However, a robust and general uncertainty measure for free-form answers has not been well-established in open-ended medical question-answering (QA) tasks, where generative inequality introduces a large number of irrelevant words and sequences within the generated set for uncertainty quantification (UQ), which can lead to biases. This paper introduces Word-Sequence Entropy (WSE), a method that calibrates uncertainty at both the word and sequence levels, considering semantic relevance. WSE quantifies uncertainty in a way that is more closely aligned with the reliability of LLMs during uncertainty quantification (UQ). We compare WSE with six baseline methods on five free-form medical QA datasets, utilizing seven popular large language models (LLMs). Experimental results demonstrate that WSE exhibits superior performance in UQ under two standard criteria for correctness evaluation. Additionally, in terms of real-world medical QA applications, the performance of LLMs is significantly enhanced (e.g., a 6.36% improvement in model accuracy on the COVID-QA dataset) by employing responses with lower uncertainty that are identified by WSE as final answers, without any additional task-specific fine-tuning or architectural modifications.
- Abstract(参考訳): 不確実性の推定は、特に医療工学の分野において、安全クリティカルな人間と人工知能(AI)インタラクションシステムの信頼性に不可欠である。
しかしながら、自由形式の回答に対する堅牢で一般的な不確実性尺度は、生成的不等式が生成した不確実性定量化(UQ)セット内に多数の無関係な単語やシーケンスを導入し、バイアスをもたらす可能性のあるオープンエンドの医療質問回答(QA)タスクにおいて、十分に確立されていない。
本稿では、意味的関連性を考慮して、単語とシーケンスレベルの不確実性を校正するWord-Sequence Entropy(WSE)を提案する。
WSEは、不確実性定量化(UQ)中のLLMの信頼性とより密に一致した方法で不確実性を定量化する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
実験結果から,WSEは2つの基準基準でUQにおいて優れた性能を示すことが示された。
さらに、実世界の医療QAアプリケーションでは、WSEによって最終回答として特定される不確実性の低い応答をタスク固有の微調整やアーキテクチャの変更なしに利用することにより、LCMの性能が著しく向上する(例えば、COVID-QAデータセットのモデル精度が6.36%向上する)。
関連論文リスト
- Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Evaluating AI systems under uncertain ground truth: a case study in
dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Modeling Disagreement in Automatic Data Labelling for Semi-Supervised
Learning in Clinical Natural Language Processing [2.016042047576802]
放射線学報告における観測検出問題に応用した最先端の予測モデルからの不確実性推定の品質について検討する。
論文 参考訳(メタデータ) (2022-05-29T20:20:49Z) - Bayesian autoencoders with uncertainty quantification: Towards
trustworthy anomaly detection [78.24964622317634]
本研究では, ベイズオートエンコーダ (BAEs) の定式化により, 全体の異常不確かさを定量化する。
不確実性の質を評価するために,不確実性の予測を拒否するオプションを追加して,異常を分類する作業を検討する。
本実験は,BAEと総異常不確かさが,ベンチマークデータセットと製造用実データセットのセットに与える影響を実証するものである。
論文 参考訳(メタデータ) (2022-02-25T12:20:04Z) - Distribution-Free Federated Learning with Conformal Predictions [0.0]
フェデレートラーニングは、患者のプライバシーを維持しながら、別々の機関のデータセットを活用することを目的としている。
キャリブレーションの低さと解釈可能性の欠如は、フェデレートされたモデルの臨床実践への広範な展開を妨げる可能性がある。
本稿では,適応型コンフォメーション・フレームワークを連携学習に組み込むことにより,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-10-14T18:41:17Z) - Q-Pain: A Question Answering Dataset to Measure Social Bias in Pain
Management [5.044336341666555]
痛み管理の文脈におけるQAのバイアスを評価するためのデータセットであるQ-Painを紹介する。
本稿では, 治療決定の際に生じる潜在的なバイアスを測定するための, 実験設計のサンプルを含む, 厳密な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T21:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。