論文の概要: AffordTissue: Dense Affordance Prediction for Tool-Action Specific Tissue Interaction
- arxiv url: http://arxiv.org/abs/2604.01371v1
- Date: Wed, 01 Apr 2026 20:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.964921
- Title: AffordTissue: Dense Affordance Prediction for Tool-Action Specific Tissue Interaction
- Title(参考訳): AffordT Issue: ツール・アクション特異的組織相互作用のための密度予測
- Authors: Aiza Maksutova, Lalithkumar Seenivasan, Hao Ding, Jiru Xu, Chenhao Yu, Chenyan Jing, Yiqing Shen, Mathias Unberath,
- Abstract要約: AffordTissueは、胆嚢摘出時のツールアクション特異的組織余裕領域を予測するためのフレームワークである。
本手法は,多視点でツールの動きと組織動態をキャプチャする時間的視覚エンコーダを組み合わせたものである。
AffordTissueは、安全な外科的自動化のための明示的な空間的推論を提供し、適切な組織領域に対する明確なポリシーガイダンスをアンロックする可能性がある。
- 参考スコア(独自算出の注目度): 9.06125788259835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical action automation has progressed rapidly toward achieving surgeon-like dexterous control, driven primarily by advances in learning from demonstration and vision-language-action models. While these have demonstrated success in table-top experiments, translating them to clinical deployment remains challenging: current methods offer limited predictability on where instruments will interact on tissue surfaces and lack explicit conditioning inputs to enforce tool-action-specific safe interaction regions. Addressing this gap, we introduce AffordTissue, a multimodal framework for predicting tool-action specific tissue affordance regions as dense heatmaps during cholecystectomy. Our approach combines a temporal vision encoder capturing tool motion and tissue dynamics across multiple viewpoints, language conditioning enabling generalization across diverse instrument-action pairs, and a DiT-style decoder for dense affordance prediction. We establish the first tissue affordance benchmark by curating and annotating 15,638 video clips across 103 cholecystectomy procedures, covering six unique tool-action pairs involving four instruments (hook, grasper, scissors, clipper) and their associated tasks: dissection, grasping, clipping, and cutting. Experiments demonstrate substantial improvement over vision-language model baselines (20.6 px ASSD vs. 60.2 px for Molmo-VLM), showing that our task-specific architecture outperforms large-scale foundation models for dense surgical affordance prediction. By predicting tool-action specific tissue affordance regions, AffordTissue provides explicit spatial reasoning for safe surgical automation, potentially unlocking explicit policy guidance toward appropriate tissue regions and early safe stop when instruments deviate outside predicted safe zones.
- Abstract(参考訳): 外科的動作の自動化は、主にデモや視覚言語モデルからの学習の進歩によって、外科医のような器用な制御を達成するために急速に進歩している。
現在の方法は、機器が組織表面と相互作用する場所を限定的に予測し、ツールアクション固有の安全な相互作用領域を強制するための明確な条件付けの入力を欠いている。
このギャップに対処するため,胆嚢摘出時に高熱マップとしてツールアクション特異的組織空洞領域を予測するための多モーダルフレームワークであるAffordTissueを紹介した。
提案手法は,多視点にわたるツールモーションと組織動態をキャプチャする時間的視覚エンコーダと,多種多様な楽器アクションペア間の一般化を可能にする言語条件付けと,高密度価格予測のためのDiT型デコーダを組み合わせる。
胆嚢摘出術103例に15,638本のビデオクリップを注視し,4つの器具(フック,グルーパー,ハサミ,クリッパー)とそれに関連するタスク(解離,把持,クリッピング,切断)を含む6つのユニークなツールアクションペアをカバーした。
視覚言語モデルベースライン (20.6 px ASSD vs. 60.2 px for Molmo-VLM) よりも大幅に向上した。
AffordTissueは、ツールアクション特異的組織余裕領域を予測することによって、安全な外科的自動化のための明示的な空間的推論を提供し、適切な組織領域に対する明確なポリシーガイダンスを解除し、予測された安全な領域の外で機器がずれたとき、早期に安全停止する可能性がある。
関連論文リスト
- YOLOv10-Based Multi-Task Framework for Hand Localization and Laterality Classification in Surgical Videos [5.504955093712013]
複雑な手術シーンにおいて,手と手の位置を同時に分類する枠組みを提案する。
このモデルはTrauma THOMPSON Challenge 2025 Task 2データセットでトレーニングされている。
論文 参考訳(メタデータ) (2026-02-21T21:41:56Z) - Attachment Anchors: A Novel Framework for Laparoscopic Grasping Point Prediction in Colorectal Surgery [19.147229560255]
大腸外科手術における組織と解剖学的アタッチメントとの局所的な幾何学的および機械的関係をエンコードする構造的表現であるアタッチメントアンカーを導入する。
この表現は、外科シーンを一貫した局所参照フレームに正規化することで、ポイント予測の把握の不確実性を減少させる。
90の大腸手術データセットを用いた実験では、アタッチメントアンカーは画像のみのベースラインよりも把握点予測を改善することが示された。
論文 参考訳(メタデータ) (2026-02-19T12:19:56Z) - Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion [54.359489807885616]
SurgRefは、自由形式の言語表現を楽器の動きに基礎を置くモーションガイドフレームワークである。
SurgRefをトレーニングし,評価するために,高密度時間マスクとリッチモーション表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
論文 参考訳(メタデータ) (2026-01-18T02:14:08Z) - Grounding Surgical Action Triplets with Instrument Instance Segmentation: A Dataset and Target-Aware Fusion Approach [16.569535111037315]
CholecTriplet-Segは3万以上の注釈付きフレームを含む大規模データセットで、アクション動詞と解剖学的ターゲットアノテーションと、楽器のインスタンスマスクをリンクし、強く監督されたインスタンスレベルの三重項グラウンドと評価のための最初のベンチマークを確立する。
また,Mask2Formerを拡張した新たなアーキテクチャであるTargetFusionNetを提案する。
論文 参考訳(メタデータ) (2025-11-01T17:45:40Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - ProstaTD: Bridging Surgical Triplet from Classification to Fully Supervised Detection [54.270188252068145]
ProstaTDは、ロボット補助前立腺切除術の技術的要求領域から開発された、外科的三重項検出のための大規模なデータセットである。
このデータセットは、71,775の動画フレームと196,490の注釈付きトリプルトインスタンスで構成され、複数の機関で実施された21の手術から収集された。
ProstaTDは、これまでで最大かつ最も多様な3重項データセットであり、単純な分類から正確な空間的境界と時間的境界を持つ完全な検出へとフィールドを移動している。
論文 参考訳(メタデータ) (2025-06-01T19:29:39Z) - SURGIVID: Annotation-Efficient Surgical Video Object Discovery [42.16556256395392]
手術シーンのセマンティックセグメンテーションのためのアノテーション効率のよいフレームワークを提案する。
我々は,画像に基づく自己監督型物体発見法を用いて,外科的ビデオにおいて最も有能なツールや解剖学的構造を同定する。
完全教師付きセグメンテーションモデルを用いて,36のアノテーションラベルで強化した無教師付きセットアップでは,同程度のローカライゼーション性能を示す。
論文 参考訳(メタデータ) (2024-09-12T07:12:20Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Text Promptable Surgical Instrument Segmentation with Vision-Language
Models [16.203166812021045]
そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-15T16:26:20Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。