論文の概要: Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts
- arxiv url: http://arxiv.org/abs/2509.07755v2
- Date: Sat, 20 Sep 2025 03:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.598351
- Title: Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts
- Title(参考訳): コヒーレンスを超えたファクタリティ:医療用テキストのLCM透かし法の評価
- Authors: Rochana Prih Hastuti, Rian Adam Rajagede, Mansour Al Ghanim, Mengxin Zheng, Qian Lou,
- Abstract要約: 医用領域における透かし配置の指針として,コヒーレンス以上の事実精度を優先する指標であるFWS(Factality-Weighted Score)を導入する。
本評価は,現在の透かし手法が医療事実を著しく損なうことを示し,エントロピーシフトは医療実体の表現を劣化させる。
これらの知見は、医療内容の整合性を維持するために、ドメイン認識型透かしアプローチの必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 14.42794744856763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are adapted to sensitive domains such as medicine, their fluency raises safety risks, particularly regarding provenance and accountability. Watermarking embeds detectable patterns to mitigate these risks, yet its reliability in medical contexts remains untested. Existing benchmarks focus on detection-quality tradeoffs and overlook factual risks. In medical text, watermarking often reweights low-entropy tokens, which are highly predictable and often carry critical medical terminology. Shifting these tokens can cause inaccuracy and hallucinations, risks that prior general-domain benchmarks fail to capture. We propose a medical-focused evaluation workflow that jointly assesses factual accuracy and coherence. Using GPT-Judger and further human validation, we introduce the Factuality-Weighted Score (FWS), a composite metric prioritizing factual accuracy beyond coherence to guide watermarking deployment in medical domains. Our evaluation shows current watermarking methods substantially compromise medical factuality, with entropy shifts degrading medical entity representation. These findings underscore the need for domain-aware watermarking approaches that preserve the integrity of medical content.
- Abstract(参考訳): 大規模言語モデル(LLM)は医学などのセンシティブな領域に適応するので、その頻度は特に証明と説明責任に関して、安全性のリスクを増大させる。
ウォーターマーキングはこれらのリスクを軽減するために検出可能なパターンを埋め込むが、医療の文脈における信頼性は検証されていない。
既存のベンチマークでは、検出品質のトレードオフに注目し、事実的リスクを見落としている。
医学テキストでは、透かしはしばしば低エントロピートークンを再重み付けし、高い予測が可能であり、重要な医療用語を担っている。
これらのトークンのシフトは不正確さと幻覚を引き起こす可能性がある。
本稿では,事実の正確さとコヒーレンスを共同で評価する医用評価ワークフローを提案する。
GPT-Judgerとさらに人間による検証を用いて、医用領域における透かしの展開をガイドするために、コヒーレンスを超えて事実精度を優先する複合指標であるFWS(Factality-Weighted Score)を導入する。
本評価は,現在の透かし手法が医療事実を著しく損なうことを示し,エントロピーシフトは医療実体の表現を劣化させる。
これらの知見は、医療内容の完全性を維持するためのドメイン認識型透かしアプローチの必要性を浮き彫りにした。
関連論文リスト
- X-Mark: Saliency-Guided Robust Dataset Ownership Verification for Medical Imaging [67.85884025186755]
高品質な医用画像データセットは深層学習モデルの訓練には不可欠であるが、その無許可の使用は重大な著作権と倫理的懸念を提起する。
医用画像は、自然画像用に設計された既存のデータセットの所有権検証方法に固有の課題を示す。
胸部X線著作権保護のためのサンプル特異的クリーンラベル透かし法であるX-Markを提案する。
論文 参考訳(メタデータ) (2026-02-10T00:03:43Z) - MediEval: A Unified Medical Benchmark for Patient-Contextual and Knowledge-Grounded Reasoning in LLMs [7.2159153945746795]
既存の評価は、単独で実際の医療知識をテストするか、患者レベルの推論を正当性を検証せずに評価し、重大なギャップを残している。
我々はMIMIC-IV電子健康記録とUMLSやその他のバイオメディカル語彙から構築された統一知識ベースを結びつけるベンチマークであるMediEvalを紹介する。
MediEvalは、実際の患者コンテキスト内で、さまざまな事実的および反ファクト的医療声明を生成し、4つのクアドラント・フレームワーク間で体系的な評価を可能にする。
論文 参考訳(メタデータ) (2025-12-23T22:52:24Z) - MedRule-KG: A Knowledge-Graph--Steered Scaffold for Reliable Mathematical and Biomedical Reasoning [0.0]
MedRule-KGは, 数学的, 生化学的に有効な出力に向けて, 生成を操る軽量検証器と組み合わせた, コンパクトな知識グラフ足場である。
反応の実現可能性、代謝適合性、毒性のスクリーニングにまたがる90のタスクで、MedRule-KGは強力なチェーン・オブ・ソートのベースラインに対して、違反数を83.2%削減する。
論文 参考訳(メタデータ) (2025-11-17T04:42:52Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - SURE-Med: Systematic Uncertainty Reduction for Enhanced Reliability in Medical Report Generation [2.2185034594788164]
視覚, 分布, 文脈の3つの重要な次元における不確実性を体系的に低減する統合フレームワークSURE-Medを提案する。
視覚的不確実性を軽減するため、Frontal-Aware View Resamplingモジュールはビューアノテーションエラーを修正し、補足ビューから情報的特徴を適応的に選択する。
ラベル分布の不確実性に対処するために,批判的診断文のモデリングを促進させるToken Sensitive Learningの目標を提案する。
文脈不確実性を低減するため、文脈証拠フィルタは、現在の画像と整合する事前情報を検証し、選択的に組み込んで、幻覚を効果的に抑制する。
論文 参考訳(メタデータ) (2025-08-03T09:52:30Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - AI Alignment in Medical Imaging: Unveiling Hidden Biases Through Counterfactual Analysis [16.21270312974956]
人口統計学などのセンシティブな属性に対する医療画像MLモデルの依存性を評価するための新しい統計フレームワークを提案する。
本稿では,条件付き潜伏拡散モデルと統計的仮説テストを組み合わせて,そのようなバイアスを特定し定量化する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:28:25Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Revisiting Medical Image Retrieval via Knowledge Consolidation [46.6989555659494]
本稿では,階層的特徴と機能に関する知識を集約する新しい手法を提案する。
本稿では,Depth-aware Representation Fusion (DaRF)とStructure-aware Contrastive Hashing (SCH)を紹介する。
解剖学的放射線学データセットの平均精度は5.6~38.9%向上した。
論文 参考訳(メタデータ) (2025-03-12T13:16:42Z) - Pathology-Aware Adaptive Watermarking for Text-Driven Medical Image Synthesis [14.661742509140995]
MedSignは、テキストから医療画像の合成に特化したディープラーニングベースの透かしフレームワークである。
医療用テキストトークンと拡散復調ネットワーク間の相互注意を用いた病的局所化マップを生成する。
LDMデコーダを最適化し、画像合成中に透かしを組み込む。
論文 参考訳(メタデータ) (2025-03-11T11:55:14Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Preventing Unauthorized AI Over-Analysis by Medical Image Adversarial
Watermarking [43.17275405041853]
医用画像適応型透かし(MIAD-MARK)という先駆的手法を提案する。
提案手法では,不許可なAI診断モデルを戦略的に誤解させ,視覚的コンテンツの完全性を損なうことなく誤った予測を誘導する透かしを導入している。
本手法は,高度な透かし除去網が存在する場合でも,医用画像の不正利用を効果的に軽減する。
論文 参考訳(メタデータ) (2023-03-17T09:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。