論文の概要: Conquering the Retina: Bringing Visual in-Context Learning to OCT
- arxiv url: http://arxiv.org/abs/2506.15200v1
- Date: Wed, 18 Jun 2025 07:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.571636
- Title: Conquering the Retina: Bringing Visual in-Context Learning to OCT
- Title(参考訳): Retinaのクエリ: OCTに視覚的インテクスト学習をもたらす
- Authors: Alessio Negrini, Simon Reiß,
- Abstract要約: 本研究では,視覚的インコンテキスト学習(VICL)を用いた網膜光コヒーレンス断層撮影領域の一般モデルの訓練方法について検討する。
我々は、複数の網膜OCTデータセットに対して、最先端の医療用VICLアプローチを広く評価し、OCTにおけるテキスト内学習の可能性と現在の限界を明らかにするための第1のベースラインを確立した。
- 参考スコア(独自算出の注目度): 5.012883033803268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in medical image analysis have led to the development of highly specialized models tailored to specific clinical tasks. These models have demonstrated exceptional performance and remain a crucial research direction. Yet, their applicability is limited to predefined tasks, requiring expertise and extensive resources for development and adaptation. In contrast, generalist models offer a different form of utility: allowing medical practitioners to define tasks on the fly without the need for task-specific model development. In this work, we explore how to train generalist models for the domain of retinal optical coherence tomography using visual in-context learning (VICL), i.e., training models to generalize across tasks based on a few examples provided at inference time. To facilitate rigorous assessment, we propose a broad evaluation protocol tailored to VICL in OCT. We extensively evaluate a state-of-the-art medical VICL approach on multiple retinal OCT datasets, establishing a first baseline to highlight the potential and current limitations of in-context learning for OCT. To foster further research and practical adoption, we openly release our code.
- Abstract(参考訳): 近年の医用画像解析の進歩は、特定の臨床業務に適した高度に専門化されたモデルの開発につながっている。
これらのモデルは例外的な性能を示し、重要な研究の方向性を維持している。
しかし、それらの適用性は事前に定義されたタスクに限られており、開発と適応には専門知識と広範なリソースが必要である。
対照的に、ジェネラリストモデルは、異なるタイプのユーティリティを提供する: 医療従事者がタスク固有のモデル開発を必要とせずに、その場でタスクを定義することができる。
本研究では,視覚的インコンテキスト学習(VICL)を用いて網膜光コヒーレンストモグラフィー領域の一般モデルをトレーニングする方法を検討する。
厳密な評価を容易にするため,OCT における VICL に適した広帯域評価プロトコルを提案する。
我々は、複数の網膜OCTデータセットに対して、最先端の医療用VICLアプローチを広く評価し、OCTにおけるテキスト内学習の可能性と現在の限界を明らかにするための第1のベースラインを確立した。
さらなる研究と実践的採用を促進するため、コードを公開しています。
関連論文リスト
- Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。
さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。
以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2025-06-06T16:53:12Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - DiCoM -- Diverse Concept Modeling towards Enhancing Generalizability in Chest X-Ray Studies [6.83819481805979]
胸部X線(胸部X線、CXR)は、広く用いられている画像モダリティである。
自己指導型プレトレーニングは、多くの下流視覚タスクにおいて教師付きプレトレーニングよりも優れていることが証明されている。
本稿では,新しい自己教師型トレーニングパラダイムであるDiCoMについて紹介する。
論文 参考訳(メタデータ) (2024-02-22T20:51:37Z) - Foundational Models in Medical Imaging: A Comprehensive Survey and
Future Vision [6.2847894163744105]
ファンデーションモデルは、広範囲の下流タスクに適応した大規模で事前訓練されたディープラーニングモデルである。
これらのモデルは、コンテキスト推論、一般化、テスト時の迅速な機能を促進する。
コンピュータビジョンの進歩に乗じて、医療画像はこれらのモデルへの関心も高まっている。
論文 参考訳(メタデータ) (2023-10-28T12:08:12Z) - Towards General Purpose Medical AI: Continual Learning Medical
Foundation Model [22.03086588403621]
現実シナリオにおける必然的領域とタスクの相違は、医学データのための事前訓練された深層モデルの一般化性能を損なう可能性がある。
私たちは、下流のドメイン/タスクにシームレスに適応できる汎用医療AIシステムを構築するべきだと大胆に提案します。
論文 参考訳(メタデータ) (2023-03-12T05:27:22Z) - Domain Generalization on Medical Imaging Classification using Episodic
Training with Task Augmentation [62.49837463676111]
本稿では,医用画像分類におけるタスク強化によるエピソードトレーニングの新たな手法を提案する。
実際の医療展開において、限られた数のソースドメインによって動機付けられ、ユニークなタスクレベルのオーバーフィッティングを検討します。
論文 参考訳(メタデータ) (2021-06-13T03:56:59Z) - GaNDLF: A Generally Nuanced Deep Learning Framework for Scalable
End-to-End Clinical Workflows in Medical Imaging [76.38169390121057]
コミュニティ主導型汎用ディープラーニングフレームワークGaNDLF(Generally Nuanced Deep Learning Framework)について紹介する。
GaNDLFは、DL開発、トレーニング、推論のメカニズムをより安定させ、再現可能で、解釈可能で、スケーラブルにする。
放射線画像と病理画像の両方をGaNDLFで解析し,k-foldクロスバリデーションをサポートした。
論文 参考訳(メタデータ) (2021-02-26T02:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。