論文の概要: Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework
- arxiv url: http://arxiv.org/abs/2506.08185v1
- Date: Mon, 09 Jun 2025 19:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.654441
- Title: Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework
- Title(参考訳): ビジョン・ランゲージ・アクション・フレームワークにおける離散拡散モデルによるサージオンスタイルフィンガープリントとプライバシーリスクの定量化
- Authors: Huixin Zhan, Jason H. Moore,
- Abstract要約: 本稿では,ロボット手術における外科特異的フィンガープリントのモデル化手法を提案する。
本手法は,ジェスチャー予測を構造化シーケンス記述タスクとして定式化する。
パーソナライズされた外科医の指紋は 自然言語のプロンプトで符号化される
- 参考スコア(独自算出の注目度): 8.019763193322298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgeons exhibit distinct operating styles due to differences in training, experience, and motor behavior - yet current AI systems often ignore this personalization signal. We propose a novel approach to model fine-grained, surgeon-specific fingerprinting in robotic surgery using a discrete diffusion framework integrated with a vision-language-action (VLA) pipeline. Our method formulates gesture prediction as a structured sequence denoising task, conditioned on multimodal inputs including endoscopic video, surgical intent language, and a privacy-aware embedding of surgeon identity and skill. Personalized surgeon fingerprinting is encoded through natural language prompts using third-party language models, allowing the model to retain individual behavioral style without exposing explicit identity. We evaluate our method on the JIGSAWS dataset and demonstrate that it accurately reconstructs gesture sequences while learning meaningful motion fingerprints unique to each surgeon. To quantify the privacy implications of personalization, we perform membership inference attacks and find that more expressive embeddings improve task performance but simultaneously increase susceptibility to identity leakage. These findings demonstrate that while personalized embeddings improve performance, they also increase vulnerability to identity leakage, revealing the importance of balancing personalization with privacy risk in surgical modeling. Code is available at: https://github.com/huixin-zhan-ai/Surgeon_style_fingerprinting.
- Abstract(参考訳): 現在のAIシステムは、このパーソナライズ信号を無視していることが多い。
本稿では,視覚言語アクション(VLA)パイプラインと統合した離散拡散フレームワークを用いて,ロボット手術における細粒度,外科医固有の指紋認証をモデル化する新しい手法を提案する。
本手法は, 内視鏡画像, 外科的意図言語, 外科医のアイデンティティとスキルを組み込んだプライバシーに配慮した埋め込みなど, マルチモーダルな入力を条件に, ジェスチャー予測を構造化シーケンス記述タスクとして定式化する。
パーソナライズされた外科医の指紋は、サードパーティの言語モデルを使用して自然言語プロンプトを通じて符号化される。
本手法をJIGSAWSデータセット上で評価し,各外科医固有の意味ある動作指紋を学習しながら,ジェスチャーシーケンスを正確に再構築できることを実証した。
パーソナライゼーションのプライバシーへの影響を定量化するために、メンバシップ推論攻撃を行い、より表現力のある埋め込みによりタスク性能は向上するが、同時にアイデンティティリークに対する感受性を高める。
これらの結果から, パーソナライズされた埋め込みがパフォーマンスを向上させる一方で, 個人化とプライバシリスクのバランスをとることの重要性が示唆された。
コードは、https://github.com/huixin-zhan-ai/Surgeon_style_fingerprinting.comで入手できる。
関連論文リスト
- Multimodal Graph Representation Learning for Robust Surgical Workflow Recognition with Adversarial Feature Disentanglement [45.691433426389985]
本稿では,精度と信頼性を高めるために,視覚と運動データを統合するグラフベースの手法を提案する。
ヴィジュアルデータはダイナミックな手術シーンをキャプチャし、キネマティックデータは正確な運動情報を提供する。
本研究の目的は, 外科手術に固有の複雑度とダイナミズムに対処し, 自動的なワークフロー認識を向上することである。
論文 参考訳(メタデータ) (2025-05-03T09:43:30Z) - Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。
この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。
我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:46:53Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z) - Multi-Task Recurrent Neural Network for Surgical Gesture Recognition and
Progress Prediction [17.63619129438996]
本稿では,手術動作の同時認識のためのマルチタスクリカレントニューラルネットワークを提案する。
マルチタスクフレームワークでは,手作業によるラベリングやトレーニングを伴わずに,進捗推定による認識性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-03-10T14:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。