Fugu-MT 論文翻訳(概要): Surgical Action Planning with Large Language Models

論文の概要: Surgical Action Planning with Large Language Models

arxiv url: http://arxiv.org/abs/2503.18296v1
Date: Mon, 24 Mar 2025 03:02:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:17.08638
Title: Surgical Action Planning with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた手術行動計画
Authors: Mengya Xu, Zhongzhen Huang, Jie Zhang, Xiaofan Zhang, Qi Dou,
Abstract要約: 本稿では,現在開発中の知的アプリケーションにおける術中予測計画の欠如に対処するため,視覚入力から将来の行動計画を生成する手術行動計画タスクを紹介する。 LLMs-SAPは、将来の行動を予測するフレームワークであり、外科的目標の自然言語プロンプトを解釈することで、テキスト応答を生成する。実験の結果,Qwen2.5-72B-SFTは19.3%の精度でQwen2.5-72Bを上回った。
参考スコア（独自算出の注目度）: 14.962190341695607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In robot-assisted minimally invasive surgery, we introduce the Surgical Action Planning (SAP) task, which generates future action plans from visual inputs to address the absence of intraoperative predictive planning in current intelligent applications. SAP shows great potential for enhancing intraoperative guidance and automating procedures. However, it faces challenges such as understanding instrument-action relationships and tracking surgical progress. Large Language Models (LLMs) show promise in understanding surgical video content but remain underexplored for predictive decision-making in SAP, as they focus mainly on retrospective analysis. Challenges like data privacy, computational demands, and modality-specific constraints further highlight significant research gaps. To tackle these challenges, we introduce LLM-SAP, a Large Language Models-based Surgical Action Planning framework that predicts future actions and generates text responses by interpreting natural language prompts of surgical goals. The text responses potentially support surgical education, intraoperative decision-making, procedure documentation, and skill analysis. LLM-SAP integrates two novel modules: the Near-History Focus Memory Module (NHF-MM) for modeling historical states and the prompts factory for action planning. We evaluate LLM-SAP on our constructed CholecT50-SAP dataset using models like Qwen2.5 and Qwen2-VL, demonstrating its effectiveness in next-action prediction. Pre-trained LLMs are tested zero-shot, and supervised fine-tuning (SFT) with LoRA is implemented to address data privacy concerns. Our experiments show that Qwen2.5-72B-SFT surpasses Qwen2.5-72B with a 19.3% higher accuracy.
Abstract（参考訳）: ロボットによる最小侵襲手術では,手術行動計画(SAP)タスクを導入し,視覚入力から将来の行動計画を生成し,術中予測計画の欠如に対処する。 SAPは術中指導や自動手術の強化に大きな可能性を秘めている。しかし、楽器-アクション関係の理解や外科的進行の追跡といった課題に直面している。大規模言語モデル (LLMs) は, 外科的ビデオコンテンツを理解する上では有望であるが, 主に振り返り分析に焦点を当てたSAPにおける予測的意思決定には未熟である。データプライバシ、計算要求、モダリティ固有の制約といった課題は、さらに大きな研究ギャップを浮き彫りにする。これらの課題に対処するために,LLM-SAP(Large Language Models-based Surgery Action Planning framework)を紹介した。テキスト応答は、外科教育、術中意思決定、手順文書、スキル分析をサポートする可能性がある。 LLM-SAPは、2つの新しいモジュールを統合している: 履歴状態をモデリングするためのNear-History Focus Memory Module (NHF-MM) と、アクションプランニングのためのファクトリである。 Qwen2.5 や Qwen2-VL などのモデルを用いて構築した CholecT50-SAP データセット上で LLM-SAP を評価し,次アクション予測の有効性を示した。事前訓練されたLLMはゼロショットでテストされ、データプライバシの懸念に対処するためにLoRAによる教師付き微調整(SFT)が実装されている。実験の結果,Qwen2.5-72B-SFTは19.3%の精度でQwen2.5-72Bを上回った。

関連論文リスト

LLaPa: A Vision-Language Model Framework for Counterfactual-Aware Procedural Planning [26.098281158573748]
マルチモーダルな手続き計画のための視覚言語モデルフレームワークであるLLaPaを紹介する。 LLaPaはテキストタスク記述と視覚環境画像から実行可能なアクションシーケンスを生成する。手続き計画を改善するために,LLaPaを2つの補助モジュールで拡張する。
論文参考訳（メタデータ） (2025-07-11T11:18:49Z)
Surgery-R1: Advancing Surgical-VQLA with Reasoning Multimodal Large Language Model via Reinforcement Learning [9.858649381667695]
外科用VQLA(Surgery-R1)のための最初のマルチモーダル大言語モデルを提案する。 Surgery-R1はMLLM(Reasoning Multimodal Large Language Models)の開発にインスパイアされている実験の結果,オペレーショナル-R1は,手術-VQLAタスクや広く使用されているMLLMにおいて,既存の最先端(SOTA)モデルよりも優れていた。
論文参考訳（メタデータ） (2025-06-24T09:53:10Z)
SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning [12.119082637875303]
SAP-Benchは,多モーダル大言語モデル(MLLM)が解釈可能な手術行動計画を実行可能にするために設計された高品質なデータセットである。我々のデータセットは、戦略的にサンプリングされた1,152個の電流フレームを提供し、それぞれが対応する次のアクションをマルチモーダル解析アンカーとしてペアリングする。本稿では,MLLMを利用したMLLM-SAPフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T15:30:04Z)
Leveraging Pre-trained Large Language Models with Refined Prompting for Online Task and Motion Planning [24.797220935378057]
本稿では,事前学習型大規模言語モデル (LLM) によって支援された閉ループタスク計画・実行システム LLM-PAS を提案する。タスク実行時の異常条件に対するLLM-PASの有効性とロバスト性を示す。
論文参考訳（メタデータ） (2025-04-30T12:53:53Z)
Plan-and-Act using Large Language Models for Interactive Agreement [8.07285448283823]
最近の大規模言語モデル(LLM)はロボットの動作を計画することができる。状況的HRIにおけるLLMの適用の鍵となる問題は、「現在の人間の活動の反映」と「ロボットのタスクの優先順位付け」のバランスである。
論文参考訳（メタデータ） (2025-04-01T23:41:05Z)
SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery [15.263720052126853]
大規模ビジョン言語モデル(VLM)は、動的なタスク計画と予測決定サポートを可能にすることで、有望なソリューションを提供する。本稿では,画像ガイド下下垂体手術のためのAIコパイロットであるオペレーショナルVLM-Agentについて紹介する。
論文参考訳（メタデータ） (2025-03-12T15:30:39Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning [15.646322352232819]
新しいデータセットであるSurg-QAを作成し、手術用ビデオインストラクションペアを102,000個作成する。手術知識を学習するために, LLMを用いた2段階質問応答生成パイプラインを提案する。 LLaVA-Surgは、手術ビデオに関するオープンな質問に答えられる新しい視覚言語対話アシスタントだ。
論文参考訳（メタデータ） (2024-08-15T07:00:20Z)
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。 KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文参考訳（メタデータ） (2024-06-20T13:07:38Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文参考訳（メタデータ） (2024-03-05T18:01:59Z)
From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-02-28T08:42:23Z)
LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery [57.358568111574314]
患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。 CL研究は外科領域で2つの重要な問題を見落としていた。本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
論文参考訳（メタデータ） (2024-02-26T15:35:24Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文参考訳（メタデータ） (2022-06-06T22:09:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。