論文の概要: Agentic Surgical AI: Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion in a Vision-Language-Action Framework
- arxiv url: http://arxiv.org/abs/2506.08185v2
- Date: Sat, 14 Jun 2025 12:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 13:01:17.437872
- Title: Agentic Surgical AI: Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion in a Vision-Language-Action Framework
- Title(参考訳): エージェント・オペレーショナルAI:ビジョンランゲージ・アクション・フレームワークにおける離散拡散によるサージオンスタイルフィンガープリントとプライバシリスク定量化
- Authors: Huixin Zhan, Jason H. Moore,
- Abstract要約: 本稿では,ロボット手術における外科医固有の行動予測のためのエージェントモデリング手法を提案する。
Gジェスチャ予測は、手術ビデオ、意図言語、パーソナライズされた外科医のアイデンティティとスキルの埋め込みを含むマルチモーダル入力に条件付けされた構造化シーケンス認知タスクとしてフレーム化される。
本手法をJIGSAWSデータセット上で評価し,各外科医固有の意味ある動作指紋を学習しながら,ジェスチャーシーケンスを正確に再構築できることを実証した。
- 参考スコア(独自算出の注目度): 8.019763193322298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgeons exhibit distinct operating styles shaped by training, experience, and motor behavior-yet most surgical AI systems overlook this personalization signal. We propose a novel agentic modeling approach for surgeon-specific behavior prediction in robotic surgery, combining a discrete diffusion framework with a vision-language-action (VLA) pipeline. Gesture prediction is framed as a structured sequence denoising task, conditioned on multimodal inputs including surgical video, intent language, and personalized embeddings of surgeon identity and skill. These embeddings are encoded through natural language prompts using third-party language models, allowing the model to retain individual behavioral style without exposing explicit identity. We evaluate our method on the JIGSAWS dataset and demonstrate that it accurately reconstructs gesture sequences while learning meaningful motion fingerprints unique to each surgeon. To quantify the privacy implications of personalization, we perform membership inference attacks and find that more expressive embeddings improve task performance but simultaneously increase susceptibility to identity leakage. These findings demonstrate that while personalized embeddings improve performance, they also increase vulnerability to identity leakage, revealing the importance of balancing personalization with privacy risk in surgical modeling. Code is available at: https://github.com/huixin-zhan-ai/Surgeon_style_fingerprinting.
- Abstract(参考訳): 外科医は、トレーニング、経験、運動行動によって形成された異なる操作スタイルを示す。
本稿では,ロボット手術における外科医固有の行動予測のためのエージェントモデリング手法を提案する。
ジェスチャー予測は、手術ビデオ、意図言語、パーソナライズされた外科医のアイデンティティとスキルの埋め込みを含むマルチモーダル入力に条件付けされた構造化シーケンス認知タスクとしてフレーム化される。
これらの埋め込みは、サードパーティの言語モデルを使用して自然言語プロンプトを通じて符号化される。
本手法をJIGSAWSデータセット上で評価し,各外科医固有の意味ある動作指紋を学習しながら,ジェスチャーシーケンスを正確に再構築できることを実証した。
パーソナライゼーションのプライバシーへの影響を定量化するために、メンバシップ推論攻撃を行い、より表現力のある埋め込みによりタスク性能は向上するが、同時にアイデンティティリークに対する感受性を高める。
これらの結果から, パーソナライズされた埋め込みがパフォーマンスを向上させる一方で, 個人化とプライバシリスクのバランスをとることの重要性が示唆された。
コードは、https://github.com/huixin-zhan-ai/Surgeon_style_fingerprinting.comで入手できる。
関連論文リスト
- Multimodal Graph Representation Learning for Robust Surgical Workflow Recognition with Adversarial Feature Disentanglement [45.691433426389985]
本稿では,精度と信頼性を高めるために,視覚と運動データを統合するグラフベースの手法を提案する。
ヴィジュアルデータはダイナミックな手術シーンをキャプチャし、キネマティックデータは正確な運動情報を提供する。
本研究の目的は, 外科手術に固有の複雑度とダイナミズムに対処し, 自動的なワークフロー認識を向上することである。
論文 参考訳(メタデータ) (2025-05-03T09:43:30Z) - Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。
この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。
我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:46:53Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z) - Multi-Task Recurrent Neural Network for Surgical Gesture Recognition and
Progress Prediction [17.63619129438996]
本稿では,手術動作の同時認識のためのマルチタスクリカレントニューラルネットワークを提案する。
マルチタスクフレームワークでは,手作業によるラベリングやトレーニングを伴わずに,進捗推定による認識性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-03-10T14:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。