論文の概要: HealthContradict: Evaluating Biomedical Knowledge Conflicts in Language Models
- arxiv url: http://arxiv.org/abs/2512.02299v1
- Date: Tue, 02 Dec 2025 00:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.661279
- Title: HealthContradict: Evaluating Biomedical Knowledge Conflicts in Language Models
- Title(参考訳): HealthContradict: 言語モデルにおける生体医学的知識紛争の評価
- Authors: Boya Zhang, Alban Bornet, Rui Yang, Nan Liu, Douglas Teodoro,
- Abstract要約: 我々は、HealthContradictを用いて、長く矛盾するバイオメディカルコンテキストを推論する言語モデルの能力を評価する。
実験により, 微調整バイオメディカル言語モデルの強みは, 不正確な文脈に抵抗しながら, 正しい文脈を活用できることが示唆された。
- 参考スコア(独自算出の注目度): 9.557404300696538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do language models use contextual information to answer health questions? How are their responses impacted by conflicting contexts? We assess the ability of language models to reason over long, conflicting biomedical contexts using HealthContradict, an expert-verified dataset comprising 920 unique instances, each consisting of a health-related question, a factual answer supported by scientific evidence, and two documents presenting contradictory stances. We consider several prompt settings, including correct, incorrect or contradictory context, and measure their impact on model outputs. Compared to existing medical question-answering evaluation benchmarks, HealthContradict provides greater distinctions of language models' contextual reasoning capabilities. Our experiments show that the strength of fine-tuned biomedical language models lies not only in their parametric knowledge from pretraining, but also in their ability to exploit correct context while resisting incorrect context.
- Abstract(参考訳): 言語モデルは、健康問題に答えるためにコンテキスト情報を使用するか?
彼らの反応は、コンフリクトのコンテキストによってどのように影響しますか?
そこで我々は,HealthContradictを用いて,言語モデルが長く矛盾するバイオメディカルコンテキストを推論する能力を評価する。健康に関する質問,科学的証拠に裏付けられた事実回答,矛盾するスタンスを示す2つの文書からなる,920のユニークな事例からなる専門家検証データセットである。
我々は、正しい、間違った、または矛盾したコンテキストを含むいくつかのプロンプト設定を検討し、モデル出力への影響を計測する。
既存の医学的質問答え評価ベンチマークと比較すると、HealthContradictは言語モデルの文脈推論能力を大きく区別する。
実験の結果, 微調整バイオメディカル言語モデルの強みは, 事前訓練によるパラメトリック知識だけでなく, 正しい文脈を活用できる能力にも関係していることがわかった。
関連論文リスト
- MedScore: Generalizable Factuality Evaluation of Free-Form Medical Answers by Domain-adapted Claim Decomposition and Verification [51.82420076479152]
MedScoreは、医学的回答を条件対応の有効な事実に分解し、ドメイン内コーパスに対する検証を行うための新しいパイプラインである。
提案手法は,既存の方法に比べて最大3倍有効な事実を抽出し,幻覚や曖昧な参照を低減し,事実の条件依存性を維持する。
論文 参考訳(メタデータ) (2025-05-24T01:23:09Z) - Do LLMs Provide Consistent Answers to Health-Related Questions across Languages? [14.87110905165928]
英語,ドイツ語,トルコ語,中国語の健康問題に対するLarge Language Models (LLMs) による回答の整合性を検討した。
医療の誤報を広める可能性のある反応の重大な矛盾を明らかにした。
本研究は, 正確で公平な医療情報を確保するために, 言語間アライメントの改善の必要性を強調した。
論文 参考訳(メタデータ) (2025-01-24T18:51:26Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Evaluating Biases in Context-Dependent Health Questions [16.818168401472075]
医療領域における文脈的質問を通じて,言語モデルのバイアスがいかに大きいかを検討する。
実験の結果, それぞれの属性に偏りがみられ, 成人女性の利用者が好まれることがわかった。
論文 参考訳(メタデータ) (2024-03-07T19:15:40Z) - Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - FaMeSumm: Investigating and Improving Faithfulness of Medical
Summarization [20.7585913214759]
現在の要約モデルは、しばしば医療入力テキストに対して不誠実な出力を生成する。
FaMeSummは、医学的知識に基づいて訓練済みの言語モデルを微調整することで、忠実性を改善するためのフレームワークである。
論文 参考訳(メタデータ) (2023-11-03T23:25:53Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Exploring the In-context Learning Ability of Large Language Model for
Biomedical Concept Linking [4.8882241537236455]
本研究では,生物医学的概念リンクのための大規模モデルのコンテキスト内学習機能を活用する手法について検討する。
提案手法は2段階のレトリーブ・アンド・ランク・フレームワークを採用する。
BC5CDRの病体正規化では90.%、化学体正規化では94.7%の精度を達成した。
論文 参考訳(メタデータ) (2023-07-03T16:19:50Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Assessing the Severity of Health States based on Social Media Posts [62.52087340582502]
ユーザの健康状態の重症度を評価するために,テキストコンテンツとコンテキスト情報の両方をモデル化する多視点学習フレームワークを提案する。
多様なNLUビューは、ユーザの健康を評価するために、タスクと個々の疾患の両方に効果を示す。
論文 参考訳(メタデータ) (2020-09-21T03:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。