論文の概要: Cite-While-You-Generate: Training-Free Evidence Attribution for Multimodal Clinical Summarization
- arxiv url: http://arxiv.org/abs/2601.16397v1
- Date: Fri, 23 Jan 2026 02:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.506555
- Title: Cite-While-You-Generate: Training-Free Evidence Attribution for Multimodal Clinical Summarization
- Title(参考訳): Cite-While-You-Generate:Multimodal Clinical Summarizationのためのトレーニングフリーエビデンス属性
- Authors: Qianqi Yan, Huy Nguyen, Sumana Srivatsa, Hari Bandi, Xin Eric Wang, Krishnaram Kenthapadi,
- Abstract要約: 信頼できる臨床要約には、それぞれの声明の出所に関する流動的な生成と透明性が必要である。
本稿では,デコーダの注意を生かしてテキストスパンや画像を直接引用する,生成時ソース属性のトレーニングフリーフレームワークを提案する。
画像パッチの注意を直接利用する生画像モードと、生成したキャプションに代えてテキストベースのアライメントを可能にするキャプション・アズ・スパンモードの2つの戦略を導入する。
- 参考スコア(独自算出の注目度): 32.47484883374212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trustworthy clinical summarization requires not only fluent generation but also transparency about where each statement comes from. We propose a training-free framework for generation-time source attribution that leverages decoder attentions to directly cite supporting text spans or images, overcoming the limitations of post-hoc or retraining-based methods. We introduce two strategies for multimodal attribution: a raw image mode, which directly uses image patch attentions, and a caption-as-span mode, which substitutes images with generated captions to enable purely text-based alignment. Evaluations on two representative domains: clinician-patient dialogues (CliConSummation) and radiology reports (MIMIC-CXR), show that our approach consistently outperforms embedding-based and self-attribution baselines, improving both text-level and multimodal attribution accuracy (e.g., +15% F1 over embedding baselines). Caption-based attribution achieves competitive performance with raw-image attention while being more lightweight and practical. These findings highlight attention-guided attribution as a promising step toward interpretable and deployable clinical summarization systems.
- Abstract(参考訳): 信頼できる臨床要約には、流動的な生成だけでなく、それぞれの声明の出所に関する透明性も必要である。
本稿では,デコーダの注意を生かしてテキストスパンや画像を直接引用し,ポストホックやリトレーニングに基づく手法の限界を克服する,世代別ソース属性のトレーニングフリーフレームワークを提案する。
画像パッチの注意を直接利用する生画像モードと、生成したキャプションに代えてテキストベースのアライメントを可能にするキャプション・アズ・スパンモードの2つの戦略を導入する。
臨床患者対話 (CliConSummation) と放射線学報告 (MIMIC-CXR) の2分野において, 本手法は埋め込みベースラインと自己帰属ベースラインを一貫して上回り, テキストレベルとマルチモーダル属性の精度(例えば, 15% F1以上の埋め込みベースライン)を改善した。
キャプションベースの属性は、より軽量で実用的でありながら、生画像の注意と競合するパフォーマンスを達成する。
これらの知見は,臨床要約システムの解釈と展開に向けての有望なステップとして,注意誘導の帰属に注目した。
関連論文リスト
- Multi-Level CLS Token Fusion for Contrastive Learning in Endoscopy Image Classification [2.5995006632251516]
ENT内視鏡画像解析に適した統合視覚言語フレームワークを提案する。
同時に、画像分類、画像から画像への検索、テキストから画像への検索の3つの臨床的タスクに取り組む。
95%の精度とF1スコア,画像画像検索用Recall@1,画像画像検索用0.93,テキスト画像検索用0.92,MRRスコア0.97,0.96。
論文 参考訳(メタデータ) (2025-08-31T09:03:39Z) - Redemption Score: A Multi-Modal Evaluation Framework for Image Captioning via Distributional, Perceptual, and Linguistic Signal Triangulation [3.4998703934432682]
Redemption Score(RS)は、3つの相補的な信号を三角測量することによって画像キャプションをランク付けする新しいフレームワークである。
Flickr8kベンチマークでは、RSはKendall-$tau$ 58.42を達成した。
論文 参考訳(メタデータ) (2025-05-22T03:35:12Z) - Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity [14.223539927549782]
本稿では,グローバルレベルの視覚表現と印象とトークンレベルの視覚表現とを一致させるHybridMEDフレームワークを提案する。
本フレームワークでは,画像から印象を生成するための2つのプロキシタスクを,キャプションブランチを介して生成する生成デコーダと,(2)要約ブランチを介して解析を行う。
MIMIC-CXRデータセットの実験により,我々の要約部は,キャプション部に対する知識を効果的に蒸留し,パラメータ要求を大幅に増大させることなくモデル性能を向上させることを明らかにした。
論文 参考訳(メタデータ) (2024-10-01T07:05:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。