論文の概要: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
- arxiv url: http://arxiv.org/abs/2505.04192v1
- Date: Wed, 07 May 2025 07:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.99992
- Title: VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning
- Title(参考訳): VideoPath-LLaVA:ビデオインストラクションチューニングによる病理診断
- Authors: Trinh T. L. Vuong, Jin Tae Kwak,
- Abstract要約: 計算病理学における最初の大規模マルチモーダルモデル(LMM)であるVideoPath-LLaVAを提案する。
3つの異なるイメージシナリオ、単一パッチイメージ、自動抽出されたクリップ、手動によるビデオ病理画像を統合する。
VideoPath-LLaVAは、詳細な組織学的記述を生成し、確定的なサインアウト診断を行うことにより、診断的推論を伴う視覚的物語を橋渡しする。
- 参考スコア(独自算出の注目度): 2.6954348706500766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present VideoPath-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, single patch images, automatically keyframe-extracted clips, and manually segmented video pathology images, to mimic the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, VideoPath-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the VideoPath-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. VideoPath-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at https://github.com/trinhvg/VideoPath-LLaVA.
- Abstract(参考訳): 本稿では,コンピュータ病理学における最初の大規模マルチモーダルモデルであるVideoPath-LLaVAについて紹介する。3つの異なるイメージシナリオ,単一パッチイメージ,自動キーフレーム抽出クリップ,手作業で分割したビデオ病理画像などを統合することで,病理医の自然診断プロセスを模倣する。
VideoPath-LLaVAは、詳細な組織学的記述を生成し、確定的なサインアウト診断を行うことにより、診断的推論を伴う視覚的物語を橋渡しする。
われわれのアプローチの中心はVideoPath-Instructデータセットであり、YouTube上の教育病理ビデオから得られた4278のビデオと診断固有のチェーン・オブ・インストラクションのペアで構成されている。
高品質なデータは診断的推論の強化には重要であるが、その生成は時間集約的で、量的に制限されている。
この課題を克服するために、既存の単一イメージの命令データセットから知識を移譲し、弱い注釈付きキーフレーム抽出されたクリップでトレーニングし、次に手動でセグメンテーションされたビデオの微調整を行う。
VideoPath-LLaVAは、病理ビデオ分析の新しいベンチマークを確立し、統合された視覚的および診断的推論を通じて臨床意思決定をサポートする、将来のAIシステムに有望な基盤を提供する。
私たちのコード、データ、モデルはhttps://github.com/trinhvg/VideoPath-LLaVA.comで公開されています。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos [11.913023311613884]
そこで本研究では,病理組織特異的な命令問合せ/問合せの大規模データセットであるQuilt-Instructを紹介した。
Quilt-Instructを使ってQult-LLaVAをトレーニングします。
論文 参考訳(メタデータ) (2023-12-07T23:16:37Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Pixel-Level Explanation of Multiple Instance Learning Models in
Biomedical Single Cell Images [52.527733226555206]
複数のインスタンス学習モデルを説明するための4つの属性法について検討する。
急性骨髄性白血病の2つのデータセットと100万以上の単細胞画像について検討した。
我々は、属性マップと医療専門家の注釈を比較し、モデルの意思決定が人間の基準とどのように異なるかを確認する。
論文 参考訳(メタデータ) (2023-03-15T14:00:11Z) - PS-DeVCEM: Pathology-sensitive deep learning model for video capsule
endoscopy based on weakly labeled data [0.0]
本稿では, ビデオカプセル内視鏡(VCE)データを用いて, フレームレベルの異常検出と大腸疾患の多ラベル分類を行うための, 病因性深層学習モデル(PS-DeVCEM)を提案する。
我々のモデルは注目に基づく深層マルチインスタンス学習によって駆動され、弱いラベル付きデータでエンドツーエンドに訓練されている。
トレーニング中にフレームアノテーション情報を使わずに、時間的にフレームを病状でローカライズする能力を示す。
論文 参考訳(メタデータ) (2020-11-22T15:33:37Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Ultrasound Video Summarization using Deep Reinforcement Learning [12.320114045092291]
本稿では,医療用ビデオデータのニーズに合わせて,完全自動要約手法を提案する。
本手法は, 代替映像要約法よりも優れており, 臨床診断基準に要求される必須情報を保存できることが示唆された。
論文 参考訳(メタデータ) (2020-05-19T15:44:18Z) - Multi-Modal Video Forensic Platform for Investigating Post-Terrorist
Attack Scenarios [55.82693757287532]
大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。
本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者からの映像アップロードを融合するビデオ分析プラットフォームを提案する。
論文 参考訳(メタデータ) (2020-04-02T14:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。