論文の概要: Surgery-R1: Advancing Surgical-VQLA with Reasoning Multimodal Large Language Model via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.19469v1
- Date: Tue, 24 Jun 2025 09:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.580932
- Title: Surgery-R1: Advancing Surgical-VQLA with Reasoning Multimodal Large Language Model via Reinforcement Learning
- Title(参考訳): 手術-R1:強化学習による多モーダル大言語モデルによる手術-VQLAの改善
- Authors: Pengfei Hao, Shuaibo Li, Hongqiu Wang, Zhizhuo Kou, Junhang Zhang, Guang Yang, Lei Zhu,
- Abstract要約: 外科用VQLA(Surgery-R1)のための最初のマルチモーダル大言語モデルを提案する。
Surgery-R1はMLLM(Reasoning Multimodal Large Language Models)の開発にインスパイアされている
実験の結果,オペレーショナル-R1は,手術-VQLAタスクや広く使用されているMLLMにおいて,既存の最先端(SOTA)モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 9.858649381667695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, significant progress has been made in the field of surgical scene understanding, particularly in the task of Visual Question Localized-Answering in robotic surgery (Surgical-VQLA). However, existing Surgical-VQLA models lack deep reasoning capabilities and interpretability in surgical scenes, which limits their reliability and potential for development in clinical applications. To address this issue, inspired by the development of Reasoning Multimodal Large Language Models (MLLMs), we first build the Surgery-R1-54k dataset, including paired data for Visual-QA, Grounding-QA, and Chain-of-Thought (CoT). Then, we propose the first Reasoning MLLM for Surgical-VQLA (Surgery-R1). In our Surgery-R1, we design a two-stage fine-tuning mechanism to enable the basic MLLM with complex reasoning abilities by utilizing supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). Furthermore, for an efficient and high-quality rule-based reward system in our RFT, we design a Multimodal Coherence reward mechanism to mitigate positional illusions that may arise in surgical scenarios. Experiment results demonstrate that Surgery-R1 outperforms other existing state-of-the-art (SOTA) models in the Surgical-VQLA task and widely-used MLLMs, while also validating its reasoning capabilities and the effectiveness of our approach. The code and dataset will be organized in https://github.com/FiFi-HAO467/Surgery-R1.
- Abstract(参考訳): 近年,外科的シーン理解の分野では,特にロボット手術における視覚的質問の局所的回答(Surgical-VQLA)の課題において,大きな進歩を遂げている。
しかし、既存の外科的-VQLAモデルは、手術シーンにおける深い推論能力と解釈可能性に欠けており、臨床応用における信頼性と潜在能力を制限している。
MLLM(Reasoning Multimodal Large Language Models)の開発に触発されたこの問題に対処するため,我々はまず,Visual-QA, Grounding-QA, Chain-of-Thought (CoT) のペアデータを含むオペレーショナル-R1-54kデータセットを構築した。
次に,外科用VQLA(Surgery-R1)の最初の推論MLLMを提案する。
手術-R1では,教師付き微調整(SFT)と強化微調整(RFT)を利用して,複雑な推論能力を持つ基本MLLMを実現するための2段階微調整機構を設計した。
さらに,RFTの効率的かつ高品質なルールベース報酬システムを実現するために,手術シナリオで発生するような位置錯覚を緩和するマルチモーダル・コヒーレンス報酬機構を設計する。
実験の結果,オペレーショナル-R1は他の既存の最先端(SOTA)モデルよりも,手術-VQLAタスクや広く使用されているMLLMよりも優れており,その推論能力とアプローチの有効性も検証されている。
コードとデータセットはhttps://github.com/FiFi-HAO467/Surgery-R1で整理される。
関連論文リスト
- Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。
さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。
以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2025-06-06T16:53:12Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation [25.070570876478417]
胸部X線検査 (CXRs) は, 臨床現場で最も頻度の高い画像検査である。
大規模マルチモーダルモデル(LMM)の最近の進歩により、自動CXR解釈が可能となり、診断精度と効率が向上した。
現在の医療用LMM(MLMM)は,(1)地域レベルでの理解と相互作用が不十分なこと,(2)単一段階の推論による限定的な解釈可能性の2つの課題に直面している。
論文 参考訳(メタデータ) (2025-05-05T17:57:07Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery [57.358568111574314]
患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。
CL研究は外科領域で2つの重要な問題を見落としていた。
本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-02-26T15:35:24Z) - End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。
クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z) - Identification of Cognitive Workload during Surgical Tasks with
Multimodal Deep Learning [20.706268332427157]
関連する認知ワークロード(CWL)の増加は、予期せぬ、反復的なタスクへの対処から生じる。
本稿では,CWLのマルチモーダル認識のための2つの機械学習手法のカスケードを提案する。
畳み込みニューラルネットワーク(CNN)は、この情報を用いて、各手術タスクに関連するさまざまなタイプのCWLを識別する。
論文 参考訳(メタデータ) (2022-09-12T18:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。