論文の概要: Retrieval-Guided Generation for Safer Histopathology Image Captioning
- arxiv url: http://arxiv.org/abs/2605.00893v1
- Date: Mon, 27 Apr 2026 22:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.456315
- Title: Retrieval-Guided Generation for Safer Histopathology Image Captioning
- Title(参考訳): 検索ガイドによる病理組織像の検索
- Authors: Md. Enamul Hoq, Wataru Uegami, Saghir Alfasly, Ghazal Alabtah, Sahar Rahimi Malakshan, Armita Kazemi, Alex T. Schmitgen, Fred Prior, H. R. Tizhoosh,
- Abstract要約: 生成的ヴィジュアル言語モデルは、流れる医療画像のキャプションを生成できるが、幻覚、過剰な診断クレーム、そして病理学における現実的な矛盾した問題に傾向が残る。
本稿では、検索誘導生成(RGG)を安全な代替手段として検討し、生成したde novoではなく、視覚的に類似したケースから専門家のテキストを要約することでキャプションを形成する。
- 参考スコア(独自算出の注目度): 3.879977117559075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative vision-language models can produce fluent medical image captions but remain prone to hallucination, over-specific diagnostic claims, and factual inconsistency-serious issues in pathology. We investigate retrieval-guided generation (RGG) as a safer alternative, where captions are formed by summarizing expert text from visually similar cases rather than generated de novo. On the ARCH histopathology dataset, RGG improves semantic alignment with ground truth, achieving cosine similarity of $\approx$0.60 versus $\approx$0.47 from MedGemma, with non-overlapping confidence intervals indicating a robust gain. A pathologist-led qualitative review shows better preservation of morphology-relevant terminology and fewer unsupported diagnoses, while revealing failure modes such as concept mixing and inherited over-specific labeling. Overall, retrieval-guided captioning offers a more transparent and reliable approach with clearer opportunities for auditing than fully generative methods.
- Abstract(参考訳): 生成的ヴィジュアル言語モデルは、流れる医療画像のキャプションを生成できるが、幻覚、過剰な診断クレーム、そして病理学における現実的な矛盾した問題に傾向が残る。
本稿では、検索誘導生成(RGG)を安全な代替手段として検討し、生成したde novoではなく、視覚的に類似したケースから専門家のテキストを要約することでキャプションを形成する。
ARCHの病理組織データセットでは、RGGは基底真理とのセマンティックアライメントを改善し、MedGemmaの$\approx$0.60と$\approx$0.47のコサイン類似性を達成し、重複しない信頼区間は頑健な利得を示している。
病理学者主導の質的レビューでは, 形態学的関連用語の保存が向上し, 診断が少なくなるとともに, 概念混合や過剰なラベル付けなどの障害モードが明らかとなった。
全体として、検索誘導キャプションは、完全な生成方法よりも、監査の機会を明確にした、より透明で信頼性の高いアプローチを提供する。
関連論文リスト
- Semantic Context-aware mOdality fUsion Transformer (SCOUT): A Context-Aware Multimodal Transformer for Concept-Grounded Pathology Report Generation [6.938242893061667]
SCOUT:semantic Context-aware mOdality fUsion Transformerは,病理報告生成のためのコンテキスト認識概念に基づくマルチモーダルフレームワークである。
手法は、局所的な組織学的パターン、全体スライディングコンテキスト、専門家が作成したセマンティックディスクリプタを統一学習パラダイムに統合する。
テキスト生成中に、奥行き認識のコンテキスト変調と適応的なマルチモーダル融合を組み合わせることで、臨床的に一貫性のあるレポートを生成する。
論文 参考訳(メタデータ) (2026-05-01T22:40:24Z) - Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - PathMR: Multimodal Visual Reasoning for Interpretable Pathology Diagnosis [9.728322291979564]
病理画像解析のための細胞レベルでのマルチモーダルビジュアル推論フレームワークであるPathMRを提案する。
PathMRは、テキスト生成品質、セグメンテーション精度、モーダルアライメントにおいて、最先端の視覚的推論手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-28T14:46:24Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Unifying Relational Sentence Generation and Retrieval for Medical Image
Report Composition [142.42920413017163]
現在の手法は、個々のケースのデータセットバイアスにより、しばしば最も一般的な文を生成する。
テンプレート検索と文生成を一体化し、共通およびまれな異常に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T04:33:27Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。