Fugu-MT 論文翻訳(概要): See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning

論文の概要: See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning

arxiv url: http://arxiv.org/abs/2409.19676v1
Date: Tue, 1 Oct 2024 10:42:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 21:49:14.364223
Title: See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning
Title（参考訳）: 病理的クレー駆動表現学習による脳CTレポート作成に向けて
Authors: Chengxin Zheng, Junzhong Ji, Yanzhao Shi, Xiaodan Zhang, Liangqiong Qu,
Abstract要約: 本稿では,病的手がかりに基づくクロスモーダルな表現を構築するためのPCRLモデルを提案する。具体的には,分類領域,病理実体,報告テーマの観点から,病理的手がかりを構築した。テキスト生成タスクの表現に適応するために、統一された大言語モデルを用いて、表現学習とレポート生成のギャップを埋める。
参考スコア（独自算出の注目度）: 12.40415847810958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Brain CT report generation is significant to aid physicians in diagnosing cranial diseases. Recent studies concentrate on handling the consistency between visual and textual pathological features to improve the coherence of report. However, there exist some challenges: 1) Redundant visual representing: Massive irrelevant areas in 3D scans distract models from representing salient visual contexts. 2) Shifted semantic representing: Limited medical corpus causes difficulties for models to transfer the learned textual representations to generative layers. This study introduces a Pathological Clue-driven Representation Learning (PCRL) model to build cross-modal representations based on pathological clues and naturally adapt them for accurate report generation. Specifically, we construct pathological clues from perspectives of segmented regions, pathological entities, and report themes, to fully grasp visual pathological patterns and learn cross-modal feature representations. To adapt the representations for the text generation task, we bridge the gap between representation learning and report generation by using a unified large language model (LLM) with task-tailored instructions. These crafted instructions enable the LLM to be flexibly fine-tuned across tasks and smoothly transfer the semantic representation for report generation. Experiments demonstrate that our method outperforms previous methods and achieves SoTA performance. Our code is available at https://github.com/Chauncey-Jheng/PCRL-MRG.
Abstract（参考訳）: 脳CTレポートの生成は、脳疾患の診断における医師の助けとなる。近年の研究では、レポートのコヒーレンスを改善するために、視覚的特徴とテキスト的特徴の整合性を扱うことに集中している。しかし、いくつかの課題がある。 1)3Dスキャンにおける無関係な領域は,視覚的文脈の有意な表現からモデルを逸脱させる。 2) シフトした意味表現: 限られた医療用コーパスは,学習したテキスト表現を生成層に転送することが困難である。本研究は,病的手がかりに基づくクロスモーダル表現を構築し,それらを正確なレポート生成に自然に適応するためのPCRLモデルを提案する。具体的には,分類領域,病理実体,報告テーマの視点から病理的手がかりを構築し,視覚的病理的パターンを完全に把握し,横断的特徴表現を学習する。テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。これらの命令により、LSMはタスク間で柔軟に微調整され、レポート生成のためのセマンティック表現を円滑に転送できる。実験により,本手法が従来の手法より優れ,SoTAの性能が向上することが示された。私たちのコードはhttps://github.com/Chauncey-Jheng/PCRL-MRG.comで公開されています。

関連論文リスト

Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning [9.075284970935341]
Patho-AgenticRAGは、権威的な病理教科書からページレベルの埋め込みに基づいて構築されたデータベースである。共同でテキストイメージ検索をサポートし、クエリされたテキストと関連する視覚的手がかりの両方を含む教科書ページの直接検索を可能にする。 Patho-AgenticRAGは、多重選択診断や視覚的質問応答といった複雑な病態タスクにおいて、既存のマルチモーダルモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-08-04T10:03:08Z)
Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration [21.260659596426184]
画像と報告の両方から病理観察の一貫性を最大化するために,新しい病理レベルの相互アライメント(PCMA)手法を提案する。 PCMAモジュールは外部の疾患アノテーションとは独立して動作し,本手法の汎用性と堅牢性を高める。実験により,提案するフレームワークは,複数の下流タスクにおいて,新しい最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-12T11:01:57Z)
Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [50.483761005446]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。 DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文参考訳（メタデータ） (2025-05-21T05:16:45Z)
Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models [9.76070837929117]
既存のアライメント手法は、微粒な病理属性の分離よりも病気のクラス間の分離を優先する。本稿では,マルチモーダル三重項学習による画像テキストアライメントを向上させる新しい手法であるMedTrimを提案する。我々の実証では,MedTrimは,最先端のアライメント手法と比較して,下流検索および分類タスクの性能を向上させることが示されている。
論文参考訳（メタデータ） (2025-04-22T14:17:51Z)
MEPNet: Medical Entity-balanced Prompting Network for Brain CT Report Generation [12.40415847810958]
医用エンティティバランス型プロンプトネットワーク(MEPNet)を提案する。 MEPNetは、大きな言語モデル(LLM)を利用して、様々なエンティティを適切に解釈し、正確な脳CTレポートを生成する。我々は2つの脳CTレポート生成ベンチマーク実験を行い、臨床精度とテキストコヒーレンスの有効性を示した。
論文参考訳（メタデータ） (2025-03-22T14:31:30Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。 2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文参考訳（メタデータ） (2024-07-19T17:24:25Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。これは、大きな言語モデルと医療専門家に相談することで達成される。我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文参考訳（メタデータ） (2024-03-12T13:18:22Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文参考訳（メタデータ） (2024-01-24T07:13:06Z)
Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文参考訳（メタデータ） (2022-10-12T09:31:39Z)
Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。本稿では,自動レポート生成のための変分トピック推論を提案する。
論文参考訳（メタデータ） (2021-07-15T13:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。