論文の概要: OphIn-500K: Curating Web-Scale Visual Instructions for Scaling Ophthalmic Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.27916v1
- Date: Wed, 27 May 2026 03:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.727963
- Title: OphIn-500K: Curating Web-Scale Visual Instructions for Scaling Ophthalmic Multimodal Large Language Models
- Title(参考訳): OphIn-500K:眼科マルチモーダル大言語モデルのスケーリングのためのWebスケールビジュアルインストラクションの計算
- Authors: Xuanzhao Dong, Wenhui Zhu, Xiwen Chen, Hao Wang, Xin Li, Yujian Xiong, Jiajun Cheng, Jingjing Wang, Xiaobing Yu, Haiyu Wu, Shao Tang, Zhipeng Wang, Langechuan Liu, Shan Lin, Oana Dumitrascu, Yalin Wang,
- Abstract要約: $textbfOphIn-Engine$は眼科固有の命令データキュレーションパイプラインである。
オープンアクセス眼科ウェブスケールビデオから高品質な指導データを構築する。
$textbfOphIn-VL$は、高度な視覚的理解と会話能力を備えた眼科固有のMLLMである。
- 参考スコア(独自算出の注目度): 29.07161421917658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of general medical Multimodal Large Language Models (MLLMs) has shown great potential for building conversational assistants to support clinical diagnosis. However, their adaptation to highly specialized domains such as ophthalmology remains underexplored, primarily due to the scarcity of large-scale, domain-specific instruction-tuning data. Existing ophthalmic datasets for conversational agents are often limited in scale and largely rely on images from established public benchmarks, limiting the scalability of ophthalmic MLLMs and their ability to capture real-world clinical complexity. To address this gap, we propose $\textbf{OphIn-Engine}$, an ophthalmology-specific instruction data curation pipeline that constructs high-quality instruction data from open-access ophthalmology web-scale videos. The pipeline integrates multimodal transcription for extracting image-transcript pairs, visual cue separation and scoring for identifying clinically relevant visual descriptions, and instruction synthesis with quality control for generating accurate and diverse clinical dialogues. Using this engine, we introduce $\textbf{OphIn-500K}$, a large-scale multimodal ophthalmology instruction-tuning dataset containing over 500,000 instruction instances and more than 151,000 unique images from over 29,000 video clips, formatted as visual question answering (VQA), multi-turn conversational interactions, and chain-of-thought (CoT) reasoning. Built upon this dataset, we further develop $\textbf{OphIn-VL}$, an ophthalmology-specific MLLM with advanced visual understanding and conversational capabilities. Comprehensive experiments and case studies demonstrate that OphIn-VL achieves superior performance compared with state-of-the-art general medical and domain-specific MLLMs.
- Abstract(参考訳): MLLM(General Medical Multimodal Large Language Models)の進歩は、臨床診断を支援するための対話型アシスタントを構築する大きな可能性を示している。
しかし、眼科のような高度に専門化された領域への適応は、主に大規模でドメイン固有の命令チューニングデータの不足のため、まだ探索されていない。
既存の会話エージェントの眼科データセットは、しばしば大規模に制限され、確立された公開ベンチマークの画像に大きく依存し、眼科MLLMのスケーラビリティと実際の臨床の複雑さを捉える能力を制限する。
このギャップに対処するために、オープンアクセス眼科Webスケールビデオから高品質な命令データを構築する眼科固有の命令データキュレーションパイプラインである$\textbf{OphIn-Engine}$を提案する。
パイプラインは、画像転写対を抽出するための多モード転写、臨床的に関連のある視覚的記述を特定するための視覚的キュー分離およびスコアリング、および正確で多様な臨床対話を生成するための品質制御を備えた命令合成を統合する。
このエンジンを用いて,50,000以上のインストラクションインスタンスと29,000以上のビデオクリップから151,000以上のユニークな画像を含む大規模マルチモーダル眼科指導訓練データセットである$\textbf{OphIn-500K}$を紹介した。
このデータセットに基づいて、より高度な視覚的理解と会話能力を備えた眼科固有のMLLMである$\textbf{OphIn-VL}$を開発する。
総合的な実験とケーススタディにより、OphIn-VLは最先端の一般医療やドメイン固有のMLLMと比較して優れた性能を発揮することが示された。
関連論文リスト
- GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification [4.922864692096282]
多重インスタンス学習(MIL)は、全スライド画像(WSI)分類における主要なアプローチである。
最近の研究は、医療知識を取り入れたビジョン言語モデル(VLM)をMILパイプラインに導入している。
本稿では2つの重要なコントリビューションを持つビジョン言語MILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T09:59:39Z) - RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models [17.579521693647383]
臨床的に好ましい網膜画像の定量的解析のための多モード対話アシスタントであるtextitRetinalGPT を紹介する。
特に網膜GPTは、網膜疾患の診断において、ジェネリックドメインのMLLMよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2025-03-06T00:19:54Z) - MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments [49.45034796115852]
手術室(オペレーティングルーム、英: Operating room, OR)は、医療スタッフ、工具、機器間の相互作用を正確に理解する必要がある複雑な高所環境である。
現在のデータセットは、スケール、リアリズムにおいて不足しており、ORシーンの性質を捉えておらず、ORモデリングにおけるマルチモーダルを制限する。
本稿では,現実的で大規模なマルチモーダルORデータセットであるMM-ORと,マルチモーダルなシーングラフ生成を実現するための最初のデータセットを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:00:52Z) - Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis [0.1984949535188529]
ビジョン言語モデル(VLM)は、画像処理のための事前訓練されたビジョンバックボーンと、クロスモーダルプロジェクタを組み込むことによって、この問題に対処する。
低線量放射線治療におけるマルチモーダル理解を高めるため,LLaVAモデルから微調整されたインテリジェントアシスタントを開発した。
論文 参考訳(メタデータ) (2025-01-26T02:48:01Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。