論文の概要: Medical Vision Language Models as Policies for Robotic Surgery
- arxiv url: http://arxiv.org/abs/2510.06064v1
- Date: Tue, 07 Oct 2025 15:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.333544
- Title: Medical Vision Language Models as Policies for Robotic Surgery
- Title(参考訳): ロボット手術のための医療ビジョン言語モデル
- Authors: Akshay Muppidi, Martin Radfar,
- Abstract要約: 視覚に基づく近位政策最適化(PPO)は、視覚的観察に基づくロボット腹腔鏡手術の課題に対処する。
医療領域固有の視覚言語モデルであるMedFlamingoをPPOと組み合わせたシンプルなアプローチを提案する。
今回,LapGymの腹腔鏡下手術作業環境を内視鏡的観察のみで評価した。
- 参考スコア(独自算出の注目度): 8.219188248930827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based Proximal Policy Optimization (PPO) struggles with visual observation-based robotic laparoscopic surgical tasks due to the high-dimensional nature of visual input, the sparsity of rewards in surgical environments, and the difficulty of extracting task-relevant features from raw visual data. We introduce a simple approach integrating MedFlamingo, a medical domain-specific Vision-Language Model, with PPO. Our method is evaluated on five diverse laparoscopic surgery task environments in LapGym, using only endoscopic visual observations. MedFlamingo PPO outperforms and converges faster compared to both standard vision-based PPO and OpenFlamingo PPO baselines, achieving task success rates exceeding 70% across all environments, with improvements ranging from 66.67% to 1114.29% compared to baseline. By processing task observations and instructions once per episode to generate high-level planning tokens, our method efficiently combines medical expertise with real-time visual feedback. Our results highlight the value of specialized medical knowledge in robotic surgical planning and decision-making.
- Abstract(参考訳): 視覚に基づく近位政策最適化(PPO)は、視覚入力の高次元的な性質、手術環境における報酬の空間性、および生の視覚データからタスク関連特徴を抽出することの難しさにより、視覚的観察に基づくロボット腹腔鏡手術に苦慮している。
医療領域固有の視覚言語モデルであるMedFlamingoをPPOと組み合わせたシンプルなアプローチを提案する。
今回,LapGymの腹腔鏡下手術作業環境を内視鏡的観察のみで評価した。
MedFlamingo PPOは、標準的なビジョンベースのPPOとOpenFlamingo PPOのベースラインよりも優れ、より高速に収束し、すべての環境でタスク成功率が70%を超え、ベースラインに比べて66.67%から1114.29%に改善されている。
タスクの観察と指示を1回処理して高レベルな計画トークンを生成することにより,医療の専門知識とリアルタイムな視覚フィードバックを効率的に組み合わせる。
本研究は,ロボット手術計画と意思決定における専門的な医療知識の価値を強調した。
関連論文リスト
- TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。
さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。
以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2025-06-06T16:53:12Z) - SurgXBench: Explainable Vision-Language Model Benchmark for Surgery [4.068223793121694]
VLM(Vision-Language Models)は、視覚とテキストのモダリティを横断する推論において、革新的な進歩をもたらした。
既存のモデルはパフォーマンスが限られており、その能力と限界を評価するためのベンチマーク研究の必要性を強調している。
ロボット支援型腹腔鏡による機器分類と動作分類のための2つのデータセットに対して,いくつかの先進VLMのゼロショット性能をベンチマークした。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。