論文の概要: From Scope to Script: An Automated Report Generation Model for Gastrointestinal Endoscopy
- arxiv url: http://arxiv.org/abs/2510.03543v1
- Date: Fri, 03 Oct 2025 22:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.103462
- Title: From Scope to Script: An Automated Report Generation Model for Gastrointestinal Endoscopy
- Title(参考訳): スコープからスクリプトへ:消化器内視鏡における自動レポート生成モデル
- Authors: Evandros Kaklamanos, Kristjana Kristinsdottir, Jonathan Huang, Dustin Carlson, Rajesh Keswani, John Pandolfino, Mozziyar Etemadi,
- Abstract要約: 食道胃十二指腸内視鏡(EGD)や大腸内視鏡は消化管疾患(GI)の診断・管理に重要な役割を担っている。
本稿では,2段階のトレーニングフレームワークにおいて,トランスフォーマーベースの視覚エンコーダとテキストデコーダを利用する新たな自動レポート生成モデルを提案する。
当社のアプローチは,ドキュメンテーションプロセスの合理化だけでなく,医師の作業量削減や患者のケア改善にも有効である。
- 参考スコア(独自算出の注目度): 4.202899403605579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Endoscopic procedures such as esophagogastroduodenoscopy (EGD) and colonoscopy play a critical role in diagnosing and managing gastrointestinal (GI) disorders. However, the documentation burden associated with these procedures place significant strain on gastroenterologists, contributing to inefficiencies in clinical workflows and physician burnout. To address this challenge, we propose a novel automated report generation model that leverages a transformer-based vision encoder and text decoder within a two-stage training framework. In the first stage, both components are pre-trained on image/text caption pairs to capture generalized vision-language features, followed by fine-tuning on images/report pairs to generate clinically meaningful findings. Our approach not only streamlines the documentation process but also holds promise for reducing physician workload and improving patient care.
- Abstract(参考訳): 食道胃十二指腸内視鏡(EGD)や大腸内視鏡は消化管疾患(GI)の診断・管理に重要な役割を担っている。
しかしながら、これらの手順に関連するドキュメントの負担は、胃腸科医に大きな負担を与え、臨床ワークフローや医師のバーンアウトの非効率性に寄与する。
この課題に対処するために,2段階のトレーニングフレームワークにおいて,トランスフォーマーベースのビジョンエンコーダとテキストデコーダを活用する,新たな自動レポート生成モデルを提案する。
最初の段階では、両コンポーネントは画像/テキストキャプションペアで事前訓練され、一般化された視覚言語の特徴を捉え、次いで画像/レポートペアを微調整して臨床的に意味のある発見を生成する。
当社のアプローチは,ドキュメンテーションプロセスの合理化だけでなく,医師の作業量削減や患者のケア改善にも有効である。
関連論文リスト
- Semantic Segmentation for Preoperative Planning in Transcatheter Aortic Valve Replacement [61.573750959726475]
経カテーテル大動脈弁置換術(TAVR)の術前計画のための医療ガイドラインを考察し,セマンティックセグメンテーションモデルを用いて支援できる課題を同定する。
まず, 細粒度のTAVR関連擬似ラベルを, 粗粒度の解剖学的情報から抽出し, セグメンテーションモデルを訓練し, スキャンでこれらの構造がどれだけよく見つかるかを定量化する。
論文 参考訳(メタデータ) (2025-07-22T13:24:45Z) - DAMPER: A Dual-Stage Medical Report Generation Framework with Coarse-Grained MeSH Alignment and Fine-Grained Hypergraph Matching [31.195735876414734]
DAMPERは、医療報告作成のための2段階のフレームワークであり、レポート作成の2段階における臨床パイプラインを模倣している。
第1段階では、MCG(MeSH-Guided Coarse-Grained Alignment)ステージは、胸部X線像の特徴と、MeSH(Messical subject Heads)特徴とを一致させて、全体的な印象の粗いキーフレーズ表現を生成する。
第2段階では、ハイパーグラフ強化ファイングラインドアライメント(HFG)ステージは、画像パッチとレポートアノテーションのためのハイパーグラフを構築し、各モダリティ内の高次関係をモデル化し、セマンティックをキャプチャするためにハイパーグラフマッチングを実行する。
論文 参考訳(メタデータ) (2024-12-19T05:23:49Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Endoscopy Classification Model Using Swin Transformer and Saliency Map [11.031841470875571]
内視鏡画像分類のための学習手法(ローカル・グローバル・ビュー)の2つの側面を考察した新しいマルチラベル分類法を提案する。
画像の局所的特徴と大域的特徴を利用して内視鏡的医用画像に対して,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2023-03-12T19:36:31Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z) - Automated Generation of Accurate \& Fluent Medical X-ray Reports [17.927768992248172]
胸部X線画像入力から医療報告を自動生成することに焦点を当てた。
本手法は,言語流布度と臨床精度に関する一般的な測定値について有望な結果を得た。
論文 参考訳(メタデータ) (2021-08-27T05:47:28Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。