Fugu-MT 論文翻訳(概要): LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning

論文の概要: LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning

arxiv url: http://arxiv.org/abs/2408.07981v1
Date: Thu, 15 Aug 2024 07:00:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 14:46:15.975469
Title: LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning
Title（参考訳）: LLaVA-Surg:構造化手術ビデオ学習によるマルチモーダル手術支援を目指して
Authors: Jiajie Li, Garrett Skinner, Gene Yang, Brian R Quaranto, Steven D Schwaitzberg, Peter C W Kim, Jinjun Xiong,
Abstract要約: 新しいデータセットであるSurg-QAを作成し、手術用ビデオインストラクションペアを102,000個作成する。手術知識を学習するために, LLMを用いた2段階質問応答生成パイプラインを提案する。 LLaVA-Surgは、手術ビデオに関するオープンな質問に答えられる新しい視覚言語対話アシスタントだ。
参考スコア（独自算出の注目度）: 15.646322352232819
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal large language models (LLMs) have achieved notable success across various domains, while research in the medical field has largely focused on unimodal images. Meanwhile, current general-domain multimodal models for videos still lack the capabilities to understand and engage in conversations about surgical videos. One major contributing factor is the absence of datasets in the surgical field. In this paper, we create a new dataset, Surg-QA, consisting of 102,000 surgical video-instruction pairs, the largest of its kind so far. To build such a dataset, we propose a novel two-stage question-answer generation pipeline with LLM to learn surgical knowledge in a structured manner from the publicly available surgical lecture videos. The pipeline breaks down the generation process into two stages to significantly reduce the task complexity, allowing us to use a more affordable, locally deployed open-source LLM than the premium paid LLM services. It also mitigates the risk of LLM hallucinations during question-answer generation, thereby enhancing the overall quality of the generated data. We further train LLaVA-Surg, a novel vision-language conversational assistant capable of answering open-ended questions about surgical videos, on this Surg-QA dataset, and conduct comprehensive evaluations on zero-shot surgical video question-answering tasks. We show that LLaVA-Surg significantly outperforms all previous general-domain models, demonstrating exceptional multimodal conversational skills in answering open-ended questions about surgical videos. We will release our code, model, and the instruction-tuning dataset.
Abstract（参考訳）: マルチモーダル大言語モデル (LLM) は様々な領域で顕著な成功を収めている一方、医学分野の研究は単調な画像に重点を置いている。一方、現在のビデオの一般ドメインマルチモーダルモデルは、外科的ビデオに関する会話を理解し、関与する能力に欠けています。主要な要因の1つは、外科領域におけるデータセットの欠如である。本稿では,これまでで最大規模の102,000の手術用ビデオインストラクションペアからなる新しいデータセットであるSurg-QAを作成する。このようなデータセットを構築するために, LLMを用いた2段階質問応答生成パイプラインを提案し, 一般に公開されている外科的講義ビデオから, 構造化された方法で外科的知識を学習する。パイプラインは、タスクの複雑さを大幅に削減するために、生成プロセスを2段階に分解します。また、質問応答生成時のLLM幻覚のリスクを軽減し、生成したデータの全体的な品質を向上させる。さらに、このSurg-QAデータセット上で、手術ビデオに関するオープンな質問に答えられる新しい視覚言語会話アシスタントであるLLaVA-Surgを訓練し、ゼロショット手術ビデオ質問応答タスクに関する包括的な評価を行う。 LLaVA-Surgは従来の汎用ドメインモデルよりも大幅に優れており,手術ビデオに関するオープンな疑問に答える上で,例外的な多モーダルな会話スキルを誇示している。コード、モデル、命令チューニングデータセットをリリースします。

関連論文リスト

SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding [75.00667948967848]
SurgLLMフレームワークは、多用途の手術ビデオ理解タスクに適した、大規模なマルチモーダルモデルである。外科的ビデオの空間的焦点を高めるために,SurgLLMの動画エンコーダのためのSurg-Pretraining(Surg-Pretraining)を最初に考案した。外科的時間的知識をSurgLLMに組み込むため, インターリーブ型マルチモーダル埋め込みによる時間的推論を改善するために, 時間的対応型マルチモーダルチューニング(TM-Tuning)を提案する。
論文参考訳（メタデータ） (2025-08-30T04:36:41Z)
SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-22T02:16:18Z)
EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-20T09:12:06Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models [1.4042211166197214]
手術シナリオに特化して設計されたLVLMについて紹介する。 LVLMモデルであるオペレーショナル・ラヴァを手術シナリオのデータに基づいて微調整した。外科的ララバは、外科的文脈において、印象的なマルチモーダルチャット能力を示すことを示す実験である。
論文参考訳（メタデータ） (2024-10-13T07:12:35Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T08:38:27Z)
LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery [57.358568111574314]
患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。 CL研究は外科領域で2つの重要な問題を見落としていた。本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
論文参考訳（メタデータ） (2024-02-26T15:35:24Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Surgical-VQLA: Transformer with Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文参考訳（メタデータ） (2023-05-19T14:13:47Z)
AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文参考訳（メタデータ） (2022-08-03T13:17:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。