論文の概要: Knowledge Extraction and Distillation from Large-Scale Image-Text
Colonoscopy Records Leveraging Large Language and Vision Models
- arxiv url: http://arxiv.org/abs/2310.11173v1
- Date: Tue, 17 Oct 2023 11:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 16:21:21.267557
- Title: Knowledge Extraction and Distillation from Large-Scale Image-Text
Colonoscopy Records Leveraging Large Language and Vision Models
- Title(参考訳): 大規模画像記録からの大規模言語と視覚モデルを用いた知識抽出と蒸留
- Authors: Shuo Wang, Yan Zhu, Xiaoyuan Luo, Zhiwei Yang, Yizhe Zhang, Peiyao Fu,
Manning Wang, Zhijian Song, Quanlin Li, Pinghong Zhou, Yike Guo
- Abstract要約: 本研究では,深層知識抽出・蒸留のためのデータマイニングパラダイムであるEndoKEDを提案する。
大腸内視鏡生記録のマルチ中心データセット(100万枚画像)を用いたEndoKEDの検証
EndoKED事前訓練された視覚バックボーンは、光生検のためのデータ効率と一般化可能な学習を可能にし、振り返りと予測バリデーションの両方で専門家レベルのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 28.850624727054903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of artificial intelligence systems for colonoscopy analysis
often necessitates expert-annotated image datasets. However, limitations in
dataset size and diversity impede model performance and generalisation.
Image-text colonoscopy records from routine clinical practice, comprising
millions of images and text reports, serve as a valuable data source, though
annotating them is labour-intensive. Here we leverage recent advancements in
large language and vision models and propose EndoKED, a data mining paradigm
for deep knowledge extraction and distillation. EndoKED automates the
transformation of raw colonoscopy records into image datasets with pixel-level
annotation. We validate EndoKED using multi-centre datasets of raw colonoscopy
records (~1 million images), demonstrating its superior performance in training
polyp detection and segmentation models. Furthermore, the EndoKED pre-trained
vision backbone enables data-efficient and generalisable learning for optical
biopsy, achieving expert-level performance in both retrospective and
prospective validation.
- Abstract(参考訳): 大腸内視鏡検査のための人工知能システムの開発は、しばしば専門家による画像データセットを必要とする。
しかし、データセットのサイズと多様性の制限はモデルの性能と一般化を妨げる。
何百万もの画像とテキストレポートからなる定期的な臨床実践から得られた画像-テキスト大腸内視鏡記録は、労働集約的であるが、貴重なデータソースとして機能する。
本稿では,大規模言語とビジョンモデルの最近の進歩を活用し,深層知識抽出・蒸留のためのデータマイニングパラダイムであるEndoKEDを提案する。
EndoKEDは、生の大腸内視鏡記録をピクセルレベルのアノテーションで画像データセットに自動変換する。
大腸内視鏡検査データ(約100万画像)の多中心データセットを用いてEndoKEDを検証し,ポリープ検出とセグメンテーションモデルの訓練において優れた性能を示した。
さらに、EndoKED事前学習された視覚バックボーンは、光生検のためのデータ効率と一般化可能な学習を可能にし、振り返りと予測バリデーションの両方において専門家レベルのパフォーマンスを達成する。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Less is more: Ensemble Learning for Retinal Disease Recognition Under
Limited Resources [12.119196313470887]
本稿では,限られた資源で網膜疾患を認識できる新しいアンサンブル学習機構を提案する。
このメカニズムは、複数の事前訓練されたモデルからの洞察を活用し、その知識を網膜CT画像に転送し適応させる。
論文 参考訳(メタデータ) (2024-02-15T06:58:25Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - GAN Inversion for Data Augmentation to Improve Colonoscopy Lesion
Classification [3.0100246737240877]
本研究では,GANインバージョンによって生成された合成大腸内視鏡像をトレーニングデータとして利用することにより,ディープラーニングモデルの病変分類性能を向上させることができることを示す。
このアプローチは、同じラベルを持つ一対のイメージを意味的にリッチで不整合な潜在空間に逆転させ、潜在表現を操作して、同じラベルを持つ新しい合成画像を生成する。
また,トレーニングデータセットにおける病変形状の多様性を高めるために,元のトレーニング画像間の補間により,現実的な合成病変画像を生成する。
論文 参考訳(メタデータ) (2022-05-04T23:15:45Z) - Suggestive Annotation of Brain Tumour Images with Gradient-guided
Sampling [14.092503407739422]
本稿では,脳腫瘍画像に対する効率的なアノテーションフレームワークを提案する。
実験によると、BraTS 2019データセットから、わずか19%の注釈付き患者スキャンでセグメンテーションモデルをトレーニングすることは、腫瘍セグメンテーションタスク全体のデータセット上でモデルをトレーニングするのと同等のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2020-06-26T13:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。