Fugu-MT 論文翻訳(概要): Measuring What VLMs Don't Say: Validation Metrics Hide Clinical Terminology Erasure in Radiology Report Generation

論文の概要: Measuring What VLMs Don't Say: Validation Metrics Hide Clinical Terminology Erasure in Radiology Report Generation

arxiv url: http://arxiv.org/abs/2603.01625v1
Date: Mon, 02 Mar 2026 08:59:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.781662
Title: Measuring What VLMs Don't Say: Validation Metrics Hide Clinical Terminology Erasure in Radiology Report Generation
Title（参考訳）: VLMが言うべきでないものを測定する:放射線医学報告における臨床ターミノロジー消去の検証基準
Authors: Aditya Parikh, Aasa Feragen, Sneha Das, Stella Frank,
Abstract要約: 本稿では,テンプレート崩壊に拘わらず,高い集合トークンオーバラップスコアにつながる復号方式について検討する。本稿では,人口統計に基づく単語の関連性の変化を定量化するための語彙レベルのフレームワークである,臨床協会変位(CAD)について紹介する。決定論的復号化は意味的消去のレベルが高いことを示し、サンプリングは多様な出力を生成するが、新しいバイアスをもたらすリスクを示す。
参考スコア（独自算出の注目度）: 10.15221228043609
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reliable deployment of Vision-Language Models (VLMs) in radiology requires validation metrics that go beyond surface-level text similarity to ensure clinical fidelity and demographic fairness. This paper investigates a critical blind spot in current model evaluation: the use of decoding strategies that lead to high aggregate token-overlap scores despite succumbing to template collapse, in which models generate only repetitive, safe generic text and omit clinical terminology. Unaddressed, this blind spot can lead to metric gaming, where models that perform well on benchmarks prove clinically uninformative. Instead, we advocate for lexical diversity measures to check model generations for clinical specificity. We introduce Clinical Association Displacement (CAD), a vocabulary-level framework that quantifies shifts in demographic-based word associations in generated reports. Weighted Association Erasure (WAE) aggregates these shifts to measure the clinical signal loss across demographic groups. We show that deterministic decoding produces high levels of semantic erasure, while stochastic sampling generates diverse outputs but risks introducing new bias, motivating a fundamental rethink of how "optimal" reporting is defined.
Abstract（参考訳）: 放射線学におけるVLM(Vision-Language Models)の信頼性の高い展開には、臨床的忠実さと人口統計学的公正性を保証するために、表面レベルのテキスト類似性を超える検証指標が必要である。本稿では,テンプレート崩壊に陥りながら高い集合トークンオーバラップスコアにつながるデコード戦略を用いることで,モデルが反復的かつ安全なジェネリックテキストのみを生成し,臨床用語を省略するという,現在のモデル評価における重要な盲点について検討する。この盲点は、ベンチマークでうまく機能するモデルが臨床的に非形式的であることを示す、メトリックゲームに繋がる可能性がある。代わりに、臨床特異性についてモデル世代をチェックするための語彙的多様性対策を提唱する。本稿では,人口統計に基づく単語の関連性の変化を定量化するための語彙レベルのフレームワークである,臨床協会変位(CAD)について紹介する。ウェイトド・アソシエーション・エロージャー(WAE)は、これらのシフトを集約し、人口集団間での臨床信号損失を測定する。決定論的復号化は意味的消去のレベルが高いことを示し、確率的サンプリングは多様な出力を生成するが、新しいバイアスをもたらすリスクがあり、「最適」レポートの定義方法に関する根本的な再考を動機付けている。

関連論文リスト

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文参考訳（メタデータ） (2026-02-27T04:49:01Z)
From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes [0.0]
本研究は臨床テキスト分類のためのGPTアーキテクチャを提案する。すべてのモデルパラメータを更新する代わりに、GPT-2のバックボーンの大部分は凍結されている。提案手法はMIMIC-IV-Noteデータセットからの放射線学報告に基づいて評価する。
論文参考訳（メタデータ） (2026-01-29T16:33:47Z)
AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文参考訳（メタデータ） (2026-01-23T11:59:13Z)
MRG-R1: Reinforcement Learning for Clinically Aligned Medical Report Generation [23.22547135801011]
医療報告生成のための意味駆動型強化学習(SRL)手法を提案する。 SRLは、言語スタイルの模倣を超えた臨床的正確性に基づく学習を促進する。 IU X線とMIMIC-CXRの2つのデータセットを用いたSRLを用いた医療報告生成の評価を行った。
論文参考訳（メタデータ） (2025-12-18T03:57:55Z)
Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。 2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文参考訳（メタデータ） (2025-08-04T18:28:03Z)
S-RRG-Bench: Structured Radiology Report Generation with Fine-Grained Evaluation Framework [39.542375803362965]
胸部X線などの診断画像のための放射線診断レポート生成(RRG)は、臨床とAIの両方において重要な役割を担っている。従来のフリーテキストレポートは冗長性と一貫性のない言語に悩まされ、臨床的に重要な詳細の抽出が複雑になる。本稿では、データセット構築、モデルトレーニング、新しい評価フレームワークの導入を含む、S-RRGに対する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-08-04T05:49:41Z)
GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。 GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文参考訳（メタデータ） (2025-03-07T11:42:22Z)
Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。 2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文参考訳（メタデータ） (2024-07-19T17:24:25Z)
RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。 RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文参考訳（メタデータ） (2024-06-24T17:49:28Z)
Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites: A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文参考訳（メタデータ） (2023-08-31T00:36:10Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。