Fugu-MT 論文翻訳(概要): Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework

論文の概要: Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework

arxiv url: http://arxiv.org/abs/2506.08185v1
Date: Mon, 09 Jun 2025 19:49:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.654441
Title: Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework
Title（参考訳）: ビジョン・ランゲージ・アクション・フレームワークにおける離散拡散モデルによるサージオンスタイルフィンガープリントとプライバシーリスクの定量化
Authors: Huixin Zhan, Jason H. Moore,
Abstract要約: 本稿では,ロボット手術における外科特異的フィンガープリントのモデル化手法を提案する。本手法は,ジェスチャー予測を構造化シーケンス記述タスクとして定式化する。パーソナライズされた外科医の指紋は自然言語のプロンプトで符号化される
参考スコア（独自算出の注目度）: 8.019763193322298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Surgeons exhibit distinct operating styles due to differences in training, experience, and motor behavior - yet current AI systems often ignore this personalization signal. We propose a novel approach to model fine-grained, surgeon-specific fingerprinting in robotic surgery using a discrete diffusion framework integrated with a vision-language-action (VLA) pipeline. Our method formulates gesture prediction as a structured sequence denoising task, conditioned on multimodal inputs including endoscopic video, surgical intent language, and a privacy-aware embedding of surgeon identity and skill. Personalized surgeon fingerprinting is encoded through natural language prompts using third-party language models, allowing the model to retain individual behavioral style without exposing explicit identity. We evaluate our method on the JIGSAWS dataset and demonstrate that it accurately reconstructs gesture sequences while learning meaningful motion fingerprints unique to each surgeon. To quantify the privacy implications of personalization, we perform membership inference attacks and find that more expressive embeddings improve task performance but simultaneously increase susceptibility to identity leakage. These findings demonstrate that while personalized embeddings improve performance, they also increase vulnerability to identity leakage, revealing the importance of balancing personalization with privacy risk in surgical modeling. Code is available at: https://github.com/huixin-zhan-ai/Surgeon_style_fingerprinting.
Abstract（参考訳）: 現在のAIシステムは、このパーソナライズ信号を無視していることが多い。本稿では,視覚言語アクション(VLA)パイプラインと統合した離散拡散フレームワークを用いて,ロボット手術における細粒度,外科医固有の指紋認証をモデル化する新しい手法を提案する。本手法は, 内視鏡画像, 外科的意図言語, 外科医のアイデンティティとスキルを組み込んだプライバシーに配慮した埋め込みなど, マルチモーダルな入力を条件に, ジェスチャー予測を構造化シーケンス記述タスクとして定式化する。パーソナライズされた外科医の指紋は、サードパーティの言語モデルを使用して自然言語プロンプトを通じて符号化される。本手法をJIGSAWSデータセット上で評価し,各外科医固有の意味ある動作指紋を学習しながら,ジェスチャーシーケンスを正確に再構築できることを実証した。パーソナライゼーションのプライバシーへの影響を定量化するために、メンバシップ推論攻撃を行い、より表現力のある埋め込みによりタスク性能は向上するが、同時にアイデンティティリークに対する感受性を高める。これらの結果から, パーソナライズされた埋め込みがパフォーマンスを向上させる一方で, 個人化とプライバシリスクのバランスをとることの重要性が示唆された。コードは、https://github.com/huixin-zhan-ai/Surgeon_style_fingerprinting.comで入手できる。

関連論文リスト

SurgVisAgent: Multimodal Agentic Model for Versatile Surgical Visual Enhancement [8.337819078911405]
SurgVisAgentはマルチモーダル大言語モデル(MLLM)上に構築されたエンドツーエンドのインテリジェントな手術用視覚エージェントである。内視鏡画像の歪みカテゴリと重度レベルを動的に識別し、様々な拡張タスクを実行できる。我々は,SurgVisAgentが従来の単一タスクモデルを上回ることを示す大規模な実験を行い,実世界の外科的歪みをシミュレーションするベンチマークを構築した。
論文参考訳（メタデータ） (2025-07-03T03:00:26Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Multimodal Graph Representation Learning for Robust Surgical Workflow Recognition with Adversarial Feature Disentanglement [45.691433426389985]
本稿では,精度と信頼性を高めるために,視覚と運動データを統合するグラフベースの手法を提案する。ヴィジュアルデータはダイナミックな手術シーンをキャプチャし、キネマティックデータは正確な運動情報を提供する。本研究の目的は, 外科手術に固有の複雑度とダイナミズムに対処し, 自動的なワークフロー認識を向上することである。
論文参考訳（メタデータ） (2025-05-03T09:43:30Z)
VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文参考訳（メタデータ） (2024-10-23T10:28:17Z)
Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文参考訳（メタデータ） (2024-10-09T17:46:53Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文参考訳（メタデータ） (2021-06-09T14:35:44Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Towards Unsupervised Learning for Instrument Segmentation in Robotic Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文参考訳（メタデータ） (2020-07-09T01:39:39Z)
Multi-Task Recurrent Neural Network for Surgical Gesture Recognition and Progress Prediction [17.63619129438996]
本稿では,手術動作の同時認識のためのマルチタスクリカレントニューラルネットワークを提案する。マルチタスクフレームワークでは,手作業によるラベリングやトレーニングを伴わずに,進捗推定による認識性能が向上することが実証された。
論文参考訳（メタデータ） (2020-03-10T14:28:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。