論文の概要: Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts
- arxiv url: http://arxiv.org/abs/2509.07755v1
- Date: Tue, 09 Sep 2025 13:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.339873
- Title: Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts
- Title(参考訳): コヒーレンスを超えたファクタリティ:医療用テキストのLCM透かし法の評価
- Authors: Rochana Prih Hastuti, Rian Adam Rajagede, Mansour Al Ghanim, Mengxin Zheng, Qian Lou,
- Abstract要約: 本稿では,事実の正確さと一貫性を評価する医用評価ワークフローを提案する。
本評価は,現在の透かし法が医学的事実を著しく損なうことを示すものである。
これらの知見はドメイン認識型透かしアプローチの必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 14.42794744856763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) adapted to sensitive domains such as medicine, their fluency raises safety risks, particularly regarding provenance and accountability. Watermarking embeds detectable patterns to mitigate these risks, yet its reliability in medical contexts remains untested. Existing benchmarks focus on detection-quality tradeoffs, overlooking factual risks under low-entropy settings often exploited by watermarking's reweighting strategy. We propose a medical-focused evaluation workflow that jointly assesses factual accuracy and coherence. Using GPT-Judger and further human validation, we introduce the Factuality-Weighted Score (FWS), a composite metric prioritizing factual accuracy beyond coherence to guide watermarking deployment in medical domains. Our evaluation shows current watermarking methods substantially compromise medical factuality, with entropy shifts degrading medical entity representation. These findings underscore the need for domain-aware watermarking approaches that preserve the integrity of medical content.
- Abstract(参考訳): 医学などのセンシティブな領域に適応する大規模言語モデル(LLM)では、その頻度は、特に証明と説明責任に関して、安全性のリスクを増大させる。
ウォーターマーキングはこれらのリスクを軽減するために検出可能なパターンを埋め込むが、医療の文脈における信頼性は検証されていない。
既存のベンチマークでは検出品質のトレードオフに重点を置いており、透かしの重み付け戦略によってしばしば悪用される低エントロピー環境下での事実的リスクを見落としている。
本稿では,事実の正確さとコヒーレンスを共同で評価する医用評価ワークフローを提案する。
GPT-Judgerとさらに人間による検証を用いて、医用領域における透かしの展開をガイドするために、コヒーレンスを超えて事実精度を優先する複合指標であるFWS(Factality-Weighted Score)を導入する。
本評価は,現在の透かし手法が医療事実を著しく損なうことを示し,エントロピーシフトは医療実体の表現を劣化させる。
これらの知見は、医療内容の完全性を維持するためのドメイン認識型透かしアプローチの必要性を浮き彫りにした。
関連論文リスト
- SURE-Med: Systematic Uncertainty Reduction for Enhanced Reliability in Medical Report Generation [2.2185034594788164]
視覚, 分布, 文脈の3つの重要な次元における不確実性を体系的に低減する統合フレームワークSURE-Medを提案する。
視覚的不確実性を軽減するため、Frontal-Aware View Resamplingモジュールはビューアノテーションエラーを修正し、補足ビューから情報的特徴を適応的に選択する。
ラベル分布の不確実性に対処するために,批判的診断文のモデリングを促進させるToken Sensitive Learningの目標を提案する。
文脈不確実性を低減するため、文脈証拠フィルタは、現在の画像と整合する事前情報を検証し、選択的に組み込んで、幻覚を効果的に抑制する。
論文 参考訳(メタデータ) (2025-08-03T09:52:30Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Revisiting Medical Image Retrieval via Knowledge Consolidation [46.6989555659494]
本稿では,階層的特徴と機能に関する知識を集約する新しい手法を提案する。
本稿では,Depth-aware Representation Fusion (DaRF)とStructure-aware Contrastive Hashing (SCH)を紹介する。
解剖学的放射線学データセットの平均精度は5.6~38.9%向上した。
論文 参考訳(メタデータ) (2025-03-12T13:16:42Z) - Pathology-Aware Adaptive Watermarking for Text-Driven Medical Image Synthesis [14.661742509140995]
MedSignは、テキストから医療画像の合成に特化したディープラーニングベースの透かしフレームワークである。
医療用テキストトークンと拡散復調ネットワーク間の相互注意を用いた病的局所化マップを生成する。
LDMデコーダを最適化し、画像合成中に透かしを組み込む。
論文 参考訳(メタデータ) (2025-03-11T11:55:14Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Preventing Unauthorized AI Over-Analysis by Medical Image Adversarial
Watermarking [43.17275405041853]
医用画像適応型透かし(MIAD-MARK)という先駆的手法を提案する。
提案手法では,不許可なAI診断モデルを戦略的に誤解させ,視覚的コンテンツの完全性を損なうことなく誤った予測を誘導する透かしを導入している。
本手法は,高度な透かし除去網が存在する場合でも,医用画像の不正利用を効果的に軽減する。
論文 参考訳(メタデータ) (2023-03-17T09:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。