論文の概要: MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events
- arxiv url: http://arxiv.org/abs/2604.15203v1
- Date: Thu, 16 Apr 2026 16:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.006104
- Title: MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events
- Title(参考訳): MADE:医療機器の逆イベントの不確かさを定量化したマルチラベルテキスト分類のためのリビングベンチマーク
- Authors: Raunak Agarwal, Markus Wenzel, Simon Baur, Jonas Zimmer, George Harvey, Jackie Ma,
- Abstract要約: 医療などの高度な領域における機械学習は、強力な予測性能と信頼性のある不確実性定量化を必要とする。
医療機器の異常事象報告から得られたMLTCベンチマークであるMADEを紹介する。
エントロピー/一貫性に基づく自己言語UQ手法を体系的に評価する。
- 参考スコア(独自算出の注目度): 0.7685926099671206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning in high-stakes domains such as healthcare requires not only strong predictive performance but also reliable uncertainty quantification (UQ) to support human oversight. Multi-label text classification (MLTC) is a central task in this domain, yet remains challenging due to label imbalances, dependencies, and combinatorial complexity. Existing MLTC benchmarks are increasingly saturated and may be affected by training data contamination, making it difficult to distinguish genuine reasoning capabilities from memorization. We introduce MADE, a living MLTC benchmark derived from {m}edical device {ad}verse {e}vent reports and continuously updated with newly published reports to prevent contamination. MADE features a long-tailed distribution of hierarchical labels and enables reproducible evaluation with strict temporal splits. We establish baselines across more than 20 encoder- and decoder-only models under fine-tuning and few-shot settings (instruction-tuned/reasoning variants, local/API-accessible). We systematically assess entropy-/consistency-based and self-verbalized UQ methods. Results show clear trade-offs: smaller discriminatively fine-tuned decoders achieve the strongest head-to-tail accuracy while maintaining competitive UQ; generative fine-tuning delivers the most reliable UQ; large reasoning models improve performance on rare labels yet exhibit surprisingly weak UQ; and self-verbalized confidence is not a reliable proxy for uncertainty. Our work is publicly available at https://hhi.fraunhofer.de/aml-demonstrator/made-benchmark.
- Abstract(参考訳): 医療などの高度な領域における機械学習は、強い予測性能だけでなく、人間の監視を支援するための信頼性の高い不確実性定量化(UQ)も必要である。
マルチラベルテキスト分類(MLTC)は、この領域において中心的なタスクであるが、ラベルの不均衡、依存関係、組合せ複雑性のために依然として困難である。
既存のMLTCベンチマークは飽和度が高くなり、トレーニングデータ汚染の影響を受けやすいため、真の推論能力と記憶能力の区別が難しい。
MADEは, {m}edical device {ad}verse {e}vent reportから派生したMLTCベンチマークであり,新たに発表されたレポートを継続的に更新し,汚染を防止する。
MADEは階層ラベルの長期分布を特徴とし、厳密な時間分割による再現可能な評価を可能にする。
20以上のエンコーダとデコーダのみのモデルに対して,微調整と少数ショット設定でベースラインを確立する(命令調整/推論,ローカル/APIアクセシブル)。
エントロピー/一貫性に基づく自己言語UQ手法を体系的に評価する。
差別的に微調整されたデコーダの小型化は、競争力のあるUQを維持しながら最強の頭と尾の精度を達成し、生成的微調整は最も信頼性の高いUQを提供する。
私たちの作品はhttps://hhi.fraunhofer.de/aml-demonstrator/made-benchmarkで公開されています。
関連論文リスト
- Benchmarking Uncertainty Calibration in Large Language Model Long-Form Question Answering [7.1559850008795385]
大きな言語モデル(LLM)は質問回答(QA)設定で一般的に使用される。
既存のUQアプローチは、科学的QAでは弱い検証が残っている。
推論要求QAにおけるUQ指標を評価するための,最初の大規模ベンチマークを紹介する。
論文 参考訳(メタデータ) (2026-01-30T20:02:34Z) - You only need 4 extra tokens: Synergistic Test-time Adaptation for LLMs [50.54173262572369]
大規模言語モデル (LLM) は、金融、医療、農業などの専門分野にますます導入されている。
本稿では,言語モデルに対するラベルフリーテスト時適応について検討し,追加の監督なしにモデルをオンザフライで適応する推論時フレームワークであるSyTTAについて述べる。
論文 参考訳(メタデータ) (2025-10-11T14:00:39Z) - Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling [29.744621356187764]
本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
論文 参考訳(メタデータ) (2023-02-17T02:40:04Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。