論文の概要: Data-centric Design of Learning-based Surgical Gaze Perception Models in Multi-Task Simulation
- arxiv url: http://arxiv.org/abs/2602.09259v1
- Date: Mon, 09 Feb 2026 22:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.306942
- Title: Data-centric Design of Learning-based Surgical Gaze Perception Models in Multi-Task Simulation
- Title(参考訳): マルチタスクシミュレーションによる学習型外科的視線知覚モデルのデータ中心設計
- Authors: Yizhou Li, Shuyuan Yang, Jiaji Su, Zonghe Chua,
- Abstract要約: ロボットによる侵襲的最小侵襲手術(RMIS)では、触覚フィードバックと奥行きの手がかりが専門的な視覚的知覚に依存している。
本研究では,ダ・ヴィンチ・シムNowシミュレータ上で4つのドリルで収集した,アクティブ・パッシブ・マルチタスク・サーチ・ギャグ・データセットについて紹介する。
我々は、視線組織におけるスキルとモダリティに依存した差異を定量化し、手術監督のための受動的視線の置換性を評価する。
- 参考スコア(独自算出の注目度): 16.689550165317765
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In robot-assisted minimally invasive surgery (RMIS), reduced haptic feedback and depth cues increase reliance on expert visual perception, motivating gaze-guided training and learning-based surgical perception models. However, operative expert gaze is costly to collect, and it remains unclear how the source of gaze supervision, both expertise level (intermediate vs. novice) and perceptual modality (active execution vs. passive viewing), shapes what attention models learn. We introduce a paired active-passive, multi-task surgical gaze dataset collected on the da Vinci SimNow simulator across four drills. Active gaze was recorded during task execution using a VR headset with eye tracking, and the corresponding videos were reused as stimuli to collect passive gaze from observers, enabling controlled same-video comparisons. We quantify skill- and modality-dependent differences in gaze organization and evaluate the substitutability of passive gaze for operative supervision using fixation density overlap analyses and single-frame saliency modeling. Across settings, MSI-Net produced stable, interpretable predictions, whereas SalGAN was unstable and often poorly aligned with human fixations. Models trained on passive gaze recovered a substantial portion of intermediate active attention, but with predictable degradation, and transfer was asymmetric between active and passive targets. Notably, novice passive labels approximated intermediate-passive targets with limited loss on higher-quality demonstrations, suggesting a practical path for scalable, crowd-sourced gaze supervision in surgical coaching and perception modeling.
- Abstract(参考訳): ロボット支援による最小侵襲手術(RMIS)では、触覚フィードバックの低減と深度手がかりにより、専門的な視覚的知覚への依存、視線誘導訓練の動機付け、学習に基づく外科的知覚モデルが向上する。
しかし、手術専門家の視線は収集に費用がかかるため、視線監督の源泉である専門レベル(中間対初心者)と知覚的モダリティ(能動的実行対受動的観察)の両方が、注意モデルがどのように学習するかを形作るのかはいまだ不明である。
本研究では,ダ・ヴィンチ・シムNowシミュレータ上で4つのドリルで収集した,アクティブ・パッシブ・マルチタスク・サーチ・ギャグ・データセットについて紹介する。
アクティブな視線は、視線追跡を備えたVRヘッドセットを用いてタスク実行中に記録され、対応するビデオは、観察者から受動的視線を収集するための刺激として再利用され、制御された同ビデオの比較が可能となった。
我々は,視線組織におけるスキル依存とモダリティ依存の差異を定量化し,固定密度重なり分析と単一フレーム・サリエンシ・モデリングを用いて,手術監督のための受動的視線の置換性を評価する。
設定全体にわたって、MSI-Netは安定的で解釈可能な予測を生み出したが、SalGANは不安定であり、しばしば人間の固定と整合性に欠けていた。
受動的視線で訓練されたモデルは、中間的な活動的注意のかなりの部分を回復したが、予測可能な劣化を伴い、能動的目標と受動的目標の間に非対称であった。
特に、初級受動ラベルは、高品質な実演において限られた損失を伴って中間受動目標を近似し、外科的コーチングと知覚モデリングにおける、スケーラブルでクラウドソースの視線監視のための実践的な道のりを示唆した。
関連論文リスト
- MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts [1.6646268910871171]
位相構造型外科手術作業のための教師付きMixture-of-Expertsアーキテクチャを提案する。
本稿では,150件未満のデモから,軽量なアクションデコーダポリシを用いて,複雑で長期にわたる操作を学習可能であることを示す。
豚のin vivo手術におけるポリシーロールアウトの予備的結果について報告する。
論文 参考訳(メタデータ) (2026-01-29T16:50:14Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - HAGI++: Head-Assisted Gaze Imputation and Generation [19.626054627997778]
本稿では,マルチモーダル拡散に基づく視線データ計算手法であるHAGI++を紹介する。
頭と眼の動きの関連性を利用するために、統合された頭向きセンサーを使用している。
本手法は,より完全で正確な視線記録を現実の環境で行う方法である。
論文 参考訳(メタデータ) (2025-11-04T10:51:34Z) - Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。
我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。
これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-24T15:19:23Z) - Airway Skill Assessment with Spatiotemporal Attention Mechanisms Using Human Gaze [2.125763116614213]
航空管理技術は救急医療において重要であり、通常主観的評価によって評価される。
本稿では,気道技能,特に気管内挿管(ETI)を評価するための機械学習アプローチを提案する。
提案システムは,ヒトの視線によって誘導される注意機構を利用して,成功・失敗のETI手順の認識を高める。
論文 参考訳(メタデータ) (2025-06-24T04:40:58Z) - EndoARSS: Adapting Spatially-Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery [11.286605039002419]
内視鏡手術は、ロボットによる最小侵襲手術のための金の標準である。
従来のディープラーニングモデルは、しばしばクロスアクティビティな干渉に悩まされ、下流の各タスクで最適以下のパフォーマンスをもたらす。
本研究では,内視鏡下手術活動認識とセマンティックセグメンテーションに特化して設計された,新しいマルチタスク学習フレームワークであるEndoARSSを提案する。
論文 参考訳(メタデータ) (2025-06-07T15:18:43Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - More Than Meets the Eye: Analyzing Anesthesiologists' Visual Attention
in the Operating Room Using Deep Learning Models [0.0]
現在、ほとんどの研究は、麻酔科医の視覚パターンを分析するためにウェアラブルアイトラッキング技術を採用している。
モニタ搭載ウェブカメラを処理する深層学習モデルを用いた新しい視線追跡手法を用いて,連続した行動データを収集した。
我々は,不確実な期間のVA分布と,活動期に関連するパターン,あるいは致命的,予期せぬ出来事におけるVA分布を区別した。
論文 参考訳(メタデータ) (2023-08-10T11:12:04Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。