論文の概要: ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos
- arxiv url: http://arxiv.org/abs/2505.04192v2
- Date: Mon, 13 Oct 2025 15:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.455289
- Title: ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos
- Title(参考訳): ViDRiP-LLaVA:画像診断のためのデータセットとベンチマーク
- Authors: Trinh T. L. Vuong, Jin Tae Kwak,
- Abstract要約: 計算病理学における最初の大規模マルチモーダルモデル(LMM)であるViDRiP-LLaVAを提案する。
単一のパッチイメージ、自動的に分割された病理ビデオクリップ、手動で分割された病理ビデオを含む3つの異なるイメージシナリオを統合している。
ViDRiP-LLaVAは、詳細な組織学的記述を生成し、確定的なサインアウト診断を達成することによって、診断的推論で視覚的物語を橋渡しする。
- 参考スコア(独自算出の注目度): 2.832420256346882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present ViDRiP-LLaVA, the first large multimodal model (LMM) in computational pathology that integrates three distinct image scenarios, including single patch images, automatically segmented pathology video clips, and manually segmented pathology videos. This integration closely mirrors the natural diagnostic process of pathologists. By generating detailed histological descriptions and culminating in a definitive sign-out diagnosis, ViDRiP-LLaVA bridges visual narratives with diagnostic reasoning. Central to our approach is the ViDRiP-Instruct dataset, comprising 4278 video and diagnosis-specific chain-of-thought instructional pairs sourced from educational histopathology videos on YouTube. Although high-quality data is critical for enhancing diagnostic reasoning, its creation is time-intensive and limited in volume. To overcome this challenge, we transfer knowledge from existing single-image instruction datasets to train on weakly annotated, keyframe-extracted clips, followed by fine-tuning on manually segmented videos. ViDRiP-LLaVA establishes a new benchmark in pathology video analysis and offers a promising foundation for future AI systems that support clinical decision-making through integrated visual and diagnostic reasoning. Our code, data, and model are publicly available at: https://github.com/QuIIL/ViDRiP-LLaVA.
- Abstract(参考訳): 計算病理学における最初の大型マルチモーダルモデル(LMM)であるViDRiP-LLaVAについて述べる。
この統合は病理学者の自然診断過程を密接に反映している。
ViDRiP-LLaVAは、詳細な組織学的記述を生成し、確定的なサインアウト診断を達成することによって、診断的推論で視覚的物語を橋渡しする。
われわれのアプローチの中心は、VDRiP-Instructデータセットであり、YouTube上の教育病理ビデオから得られた4278のビデオと診断固有のチェーン・オブ・インストラクションのペアで構成されている。
高品質なデータは診断的推論の強化には重要であるが、その生成は時間集約的で、量的に制限されている。
この課題を克服するために、既存の単一イメージの命令データセットから知識を移譲し、弱い注釈付きキーフレーム抽出されたクリップでトレーニングし、次に手動でセグメンテーションされたビデオの微調整を行う。
ViDRiP-LLaVAは、病理ビデオ分析の新しいベンチマークを確立し、統合された視覚的および診断的推論を通じて臨床意思決定をサポートする、将来のAIシステムに有望な基盤を提供する。
私たちのコード、データ、モデルは、https://github.com/QuIIL/ViDRiP-LLaVA.comで公開されています。
関連論文リスト
- DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos [11.913023311613884]
そこで本研究では,病理組織特異的な命令問合せ/問合せの大規模データセットであるQuilt-Instructを紹介した。
Quilt-Instructを使ってQult-LLaVAをトレーニングします。
論文 参考訳(メタデータ) (2023-12-07T23:16:37Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - OnUVS: Online Feature Decoupling Framework for High-Fidelity Ultrasound
Video Synthesis [34.07625938756013]
ソノグラフィーは、包括的な情報を集めるために対応する動的解剖構造を観察しなければならない。
アメリカのビデオの合成は、この問題に対する有望な解決策になるかもしれない。
我々は,高忠実度USビデオ合成のためのオンライン機能分離フレームワークOnUVSを提案する。
論文 参考訳(メタデータ) (2023-08-16T10:16:50Z) - Pixel-Level Explanation of Multiple Instance Learning Models in
Biomedical Single Cell Images [52.527733226555206]
複数のインスタンス学習モデルを説明するための4つの属性法について検討する。
急性骨髄性白血病の2つのデータセットと100万以上の単細胞画像について検討した。
我々は、属性マップと医療専門家の注釈を比較し、モデルの意思決定が人間の基準とどのように異なるかを確認する。
論文 参考訳(メタデータ) (2023-03-15T14:00:11Z) - PS-DeVCEM: Pathology-sensitive deep learning model for video capsule
endoscopy based on weakly labeled data [0.0]
本稿では, ビデオカプセル内視鏡(VCE)データを用いて, フレームレベルの異常検出と大腸疾患の多ラベル分類を行うための, 病因性深層学習モデル(PS-DeVCEM)を提案する。
我々のモデルは注目に基づく深層マルチインスタンス学習によって駆動され、弱いラベル付きデータでエンドツーエンドに訓練されている。
トレーニング中にフレームアノテーション情報を使わずに、時間的にフレームを病状でローカライズする能力を示す。
論文 参考訳(メタデータ) (2020-11-22T15:33:37Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Ultrasound Video Summarization using Deep Reinforcement Learning [12.320114045092291]
本稿では,医療用ビデオデータのニーズに合わせて,完全自動要約手法を提案する。
本手法は, 代替映像要約法よりも優れており, 臨床診断基準に要求される必須情報を保存できることが示唆された。
論文 参考訳(メタデータ) (2020-05-19T15:44:18Z) - Multi-Modal Video Forensic Platform for Investigating Post-Terrorist
Attack Scenarios [55.82693757287532]
大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。
本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者からの映像アップロードを融合するビデオ分析プラットフォームを提案する。
論文 参考訳(メタデータ) (2020-04-02T14:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。