論文の概要: SurgVisAgent: Multimodal Agentic Model for Versatile Surgical Visual Enhancement
- arxiv url: http://arxiv.org/abs/2507.02252v1
- Date: Thu, 03 Jul 2025 03:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.479968
- Title: SurgVisAgent: Multimodal Agentic Model for Versatile Surgical Visual Enhancement
- Title(参考訳): SurgVisAgent: めまい性視力増強のためのマルチモーダルエージェントモデル
- Authors: Zeyu Lei, Hongyuan Yu, Jinlin Wu, Zhen Chen,
- Abstract要約: SurgVisAgentはマルチモーダル大言語モデル(MLLM)上に構築されたエンドツーエンドのインテリジェントな手術用視覚エージェントである。
内視鏡画像の歪みカテゴリと重度レベルを動的に識別し、様々な拡張タスクを実行できる。
我々は,SurgVisAgentが従来の単一タスクモデルを上回ることを示す大規模な実験を行い,実世界の外科的歪みをシミュレーションするベンチマークを構築した。
- 参考スコア(独自算出の注目度): 8.337819078911405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise surgical interventions are vital to patient safety, and advanced enhancement algorithms have been developed to assist surgeons in decision-making. Despite significant progress, these algorithms are typically designed for single tasks in specific scenarios, limiting their effectiveness in complex real-world situations. To address this limitation, we propose SurgVisAgent, an end-to-end intelligent surgical vision agent built on multimodal large language models (MLLMs). SurgVisAgent dynamically identifies distortion categories and severity levels in endoscopic images, enabling it to perform a variety of enhancement tasks such as low-light enhancement, overexposure correction, motion blur elimination, and smoke removal. Specifically, to achieve superior surgical scenario understanding, we design a prior model that provides domain-specific knowledge. Additionally, through in-context few-shot learning and chain-of-thought (CoT) reasoning, SurgVisAgent delivers customized image enhancements tailored to a wide range of distortion types and severity levels, thereby addressing the diverse requirements of surgeons. Furthermore, we construct a comprehensive benchmark simulating real-world surgical distortions, on which extensive experiments demonstrate that SurgVisAgent surpasses traditional single-task models, highlighting its potential as a unified solution for surgical assistance.
- Abstract(参考訳): 正確な外科的介入は患者の安全に不可欠であり、外科医の意思決定を支援するための高度な強化アルゴリズムが開発されている。
大幅な進歩にもかかわらず、これらのアルゴリズムは典型的には特定のシナリオにおける単一タスクのために設計され、複雑な現実の状況においてその有効性を制限する。
この制限に対処するために,マルチモーダル大言語モデル(MLLM)上に構築されたエンドツーエンドのインテリジェントな手術視覚エージェントであるSurgVisAgentを提案する。
SurgVisAgentは、内視鏡画像の歪みカテゴリと重度レベルを動的に識別し、低照度向上、過剰露光補正、モーションボケ除去、煙除去などの様々な拡張タスクを実行できる。
具体的には,より優れた手術シナリオ理解を実現するために,ドメイン固有の知識を提供する事前モデルを設計する。
さらに、コンテキスト内数ショットの学習とCoT推論を通じて、SurgVisAgentは、幅広い歪みタイプと重度レベルに合わせてカスタマイズされた画像拡張を提供し、外科医の多様な要件に対処する。
さらに,SurgVisAgentが従来の単一タスクモデルを超え,手術支援の統一ソリューションとしての可能性を強調し,実世界の外科的歪みをシミュレーションする総合的なベンチマークを構築した。
関連論文リスト
- EndoARSS: Adapting Spatially-Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery [11.286605039002419]
内視鏡手術は、ロボットによる最小侵襲手術のための金の標準である。
従来のディープラーニングモデルは、しばしばクロスアクティビティな干渉に悩まされ、下流の各タスクで最適以下のパフォーマンスをもたらす。
本研究では,内視鏡下手術活動認識とセマンティックセグメンテーションに特化して設計された,新しいマルチタスク学習フレームワークであるEndoARSSを提案する。
論文 参考訳(メタデータ) (2025-06-07T15:18:43Z) - Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。
さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。
以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2025-06-06T16:53:12Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities [2.9212404280476267]
視覚言語モデル(VLM)は、大量の原画像テキストペアで訓練でき、高い適応性を示す。
様々な腹腔鏡的データセットにまたがるいくつかの人気のあるVLMのベンチマーク研究を行う。
その結果, 画像の非関連領域に着目しながら, 予測精度と視覚的グラウンドニングのミスマッチが明らかとなり, モデルが正しい予測を行う可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery [15.263720052126853]
大規模ビジョン言語モデル(VLM)は、動的なタスク計画と予測決定サポートを可能にすることで、有望なソリューションを提供する。
本稿では,画像ガイド下下垂体手術のためのAIコパイロットであるオペレーショナルVLM-Agentについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T15:30:39Z) - VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons [29.783300422432763]
外科医の意図を正確に理解できるVersatile Surgery Assistant (VS-Assistant)を提案する。
我々は,VS-Assistantが外科的意図を理解できるように,外科的ケア・チューニング戦略を考案した。
論文 参考訳(メタデータ) (2024-05-14T02:05:36Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。