論文の概要: LEAD: Layer-wise Expert-aligned Decoding for Faithful Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2602.04617v1
- Date: Wed, 04 Feb 2026 14:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.576736
- Title: LEAD: Layer-wise Expert-aligned Decoding for Faithful Radiology Report Generation
- Title(参考訳): LEAD: 忠実な放射線学レポート生成のためのレイヤワイドエキスパートアライメントデコーディング
- Authors: Ruixiao Yang, Yuanhe Tian, Xu Yang, Huiqi Li, Yan Song,
- Abstract要約: 放射線診断報告生成(RRG)は、医用画像から正確で一貫性のある診断を作成することを目的としている。
大型視覚言語モデル (LVLM) は幻覚を示し、可視だが画像のない病理像を生成する。
本稿では,LVLMデコーダを本質的に修正する新しい手法であるレイヤワイズ・エキスパートアライメント・デコーダ(LEAD)を提案する。
- 参考スコア(独自算出の注目度): 25.67810663907638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology Report Generation (RRG) aims to produce accurate and coherent diagnostics from medical images. Although large vision language models (LVLM) improve report fluency and accuracy, they exhibit hallucinations, generating plausible yet image-ungrounded pathological details. Existing methods primarily rely on external knowledge guidance to facilitate the alignment between generated text and visual information. However, these approaches often ignore the inherent decoding priors and vision-language alignment biases in pretrained models and lack robustness due to reliance on constructed guidance. In this paper, we propose Layer-wise Expert-aligned Decoding (LEAD), a novel method to inherently modify the LVLM decoding trajectory. A multiple experts module is designed for extracting distinct pathological features which are integrated into each decoder layer via a gating mechanism. This layer-wise architecture enables the LLM to consult expert features at every inference step via a learned gating function, thereby dynamically rectifying decoding biases and steering the generation toward factual consistency. Experiments conducted on multiple public datasets demonstrate that the LEAD method yields effective improvements in clinical accuracy metrics and mitigates hallucinations while preserving high generation quality.
- Abstract(参考訳): 放射線診断報告生成(RRG)は、医用画像から正確で一貫性のある診断を作成することを目的としている。
大きな視覚言語モデル(LVLM)は、レポートの流速と正確性を改善するが、幻覚を呈し、画像のない病態の詳細を生成する。
既存の手法は、生成したテキストと視覚情報のアライメントを容易にするために、外部の知識指導に依存している。
しかしながら、これらのアプローチは、事前訓練されたモデルにおける固有の復号法や視覚言語によるアライメントバイアスを無視し、構築されたガイダンスに依存しているため堅牢性に欠けることが多い。
本稿では,LVLMデコーダを本質的に修正する新しい手法であるレイヤワイドエキスパートアライメントデコーダ(LEAD)を提案する。
マルチエキスパートモジュールは、ゲーティング機構を介して各デコーダ層に統合された異なる病理特徴を抽出するように設計されている。
このレイヤワイドアーキテクチャにより、LLMは学習ゲーティング機能を介して各推論ステップのエキスパート機能を参照し、デコードバイアスを動的に修正し、事実整合性に向けて生成を操ることができる。
複数の公開データセットで行った実験は、LEAD法が臨床精度の指標を効果的に改善し、高世代品質を維持しながら幻覚を緩和することを示した。
関連論文リスト
- PathReasoner-R1: Instilling Structured Reasoning into Pathology Vision-Language Model via Knowledge-Guided Policy Optimization [6.821738567680833]
PathReasonerは,WSI推論の最初の大規模データセットである。
PathReasoner-R1は、教師付き微調整と推論指向の強化学習を相乗し、構造化されたチェーン・オブ・シント機能を注入する。
実験により、PathReasoner-R1はPathReasonerと公開ベンチマークの両方で、様々な画像スケールで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-01-29T12:21:16Z) - Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - Anatomical Region-Guided Contrastive Decoding: A Plug-and-Play Strategy for Mitigating Hallucinations in Medical VLMs [20.507007953026346]
Anatomical Region-Guided Contrastive Decoding (ARCD) は、目標とする地域固有のガイダンスを提供することで幻覚を緩和するプラグアンドプレイ戦略である。
本手法は, 地域理解の向上, 幻覚の低減, 総合的診断精度の向上に有効である。
論文 参考訳(メタデータ) (2025-12-19T03:11:20Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays [8.019362739504087]
視覚言語による事前訓練は画像とテキストのアライメントが進んでいるが、臨床報告の不均一性によって放射線学の進歩が制限されている。
我々は,大規模言語モデル (LLM) エンコーダが,多様なスタイルにまたがる堅牢な臨床表現を提供できるかどうかを問う。
胸部X線レポート用のドメイン適応エンコーダLLM2VEC4CXRと、このエンコーダとビジョンバックボーンを結合するデュアルトウワーフレームワークLLM2CLIP4CXRを紹介する。
論文 参考訳(メタデータ) (2025-09-17T09:44:59Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Geometry-Aware Attenuation Learning for Sparse-View CBCT Reconstruction [53.93674177236367]
Cone Beam Computed Tomography (CBCT) は臨床画像撮影において重要な役割を担っている。
従来の方法では、高品質な3D CBCT画像の再構成には数百の2次元X線投影が必要である。
これにより、放射線線量を減らすため、スパースビューCBCT再構成への関心が高まっている。
本稿では,この問題を解決するために,新しい幾何対応エンコーダデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:38:42Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。