論文の概要: See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning
- arxiv url: http://arxiv.org/abs/2409.19676v1
- Date: Sun, 29 Sep 2024 12:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:06:34.262402
- Title: See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning
- Title(参考訳): 病理的クレー駆動表現学習による脳CTレポート作成に向けて
- Authors: Chengxin Zheng, Junzhong Ji, Yanzhao Shi, Xiaodan Zhang, Liangqiong Qu,
- Abstract要約: 本稿では,病的手がかりに基づくクロスモーダルな表現を構築するためのPCRLモデルを提案する。
具体的には,分類領域,病理実体,報告テーマの観点から,病理的手がかりを構築した。
テキスト生成タスクの表現に適応するために、統一された大言語モデルを用いて、表現学習とレポート生成のギャップを埋める。
- 参考スコア(独自算出の注目度): 12.40415847810958
- License:
- Abstract: Brain CT report generation is significant to aid physicians in diagnosing cranial diseases. Recent studies concentrate on handling the consistency between visual and textual pathological features to improve the coherence of report. However, there exist some challenges: 1) Redundant visual representing: Massive irrelevant areas in 3D scans distract models from representing salient visual contexts. 2) Shifted semantic representing: Limited medical corpus causes difficulties for models to transfer the learned textual representations to generative layers. This study introduces a Pathological Clue-driven Representation Learning (PCRL) model to build cross-modal representations based on pathological clues and naturally adapt them for accurate report generation. Specifically, we construct pathological clues from perspectives of segmented regions, pathological entities, and report themes, to fully grasp visual pathological patterns and learn cross-modal feature representations. To adapt the representations for the text generation task, we bridge the gap between representation learning and report generation by using a unified large language model (LLM) with task-tailored instructions. These crafted instructions enable the LLM to be flexibly fine-tuned across tasks and smoothly transfer the semantic representation for report generation. Experiments demonstrate that our method outperforms previous methods and achieves SoTA performance. Our code is available at https://github.com/Chauncey-Jheng/PCRL-MRG.
- Abstract(参考訳): 脳CTレポートの生成は、脳疾患の診断における医師の助けとなる。
近年の研究では、レポートのコヒーレンスを改善するために、視覚的特徴とテキスト的特徴の整合性を扱うことに集中している。
しかし、いくつかの課題がある。
1)3Dスキャンにおける無関係な領域は,視覚的文脈の有意な表現からモデルを逸脱させる。
2) シフトした意味表現: 限られた医療用コーパスは,学習したテキスト表現を生成層に転送することが困難である。
本研究は,病的手がかりに基づくクロスモーダル表現を構築し,それらを正確なレポート生成に自然に適応するためのPCRLモデルを提案する。
具体的には,分類領域,病理実体,報告テーマの視点から病理的手がかりを構築し,視覚的病理的パターンを完全に把握し,横断的特徴表現を学習する。
テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。
これらの命令により、LSMはタスク間で柔軟に微調整され、レポート生成のためのセマンティック表現を円滑に転送できる。
実験により,本手法が従来の手法より優れ,SoTAの性能が向上することが示された。
私たちのコードはhttps://github.com/Chauncey-Jheng/PCRL-MRG.comで公開されています。
関連論文リスト
- Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。
生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。
提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-01-24T07:13:06Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - CAMANet: Class Activation Map Guided Attention Network for Radiology
Report Generation [24.072847985361925]
放射線医学報告生成(RRG)は、医療資源不足を緩和する大きな可能性を秘めているため、研究の注目を集めている。
RRGの最近の進歩は、単一モーダルな特徴表現を符号化する際のモデルの能力の向上によって引き起こされる。
画像領域と単語間のクロスモーダルアライメントを明示的に検討する研究はほとんどない。
クロスモーダルアライメントを明示的に促進するクラス活性化マップガイドアテンションネットワーク(CAMANet)を提案する。
論文 参考訳(メタデータ) (2022-11-02T18:14:33Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。