論文の概要: TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.06999v2
- Date: Wed, 11 Mar 2026 21:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.42638
- Title: TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models
- Title(参考訳): TrajPred:視覚言語モデルにおける手術機器間相互作用認識のための軌道記述型関節埋め込み予測
- Authors: Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin,
- Abstract要約: 時間的動きの手がかりを組み込むための楽器軌道を符号化するフレームワークであるTrajPredを提案する。
また,楽器間相互作用認識タスクへのスムーズな適応を実現するために,プロンプトチューニングと動詞言い換え手法を取り入れた。
- 参考スコア(独自算出の注目度): 7.094376663507277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing instruments' interactions with tissues is essential for building context-aware AI assistants in robotic surgery. Vision-language models (VLMs) have opened a new avenue for surgical perception and achieved better generalization on a wide range of tasks compared to conventional task-specific deep learning approaches. However, their performance on instrument--tissue interaction recognition remains limited, largely due to two challenges: (1) many models do not effectively leverage temporal information, and (2) alignment between vision and text often misses fine-grained action details. To address these issues, we propose TrajPred, a framework that encodes instrument trajectories to incorporate temporal motion cues and, conditioned on these trajectories, introduces a predictor module to generate visual semantic embeddings that better capture fine-grained action details. We further incorporate prompt tuning and a verb-rephrasing technique to enable smooth adaptation to the instrument--tissue interaction recognition task. Extensive experiments on the public laparoscopic benchmark, CholecT50, show that our method improves both Average Precision and Top-K accuracy. We also investigate whether visual embeddings of instrument--tissue interaction regions align better with the corresponding text by visualizing the cosine similarity between visual and textual embeddings. The visualization results indicate that the proposed method improves alignment between relevant visual and textual representations.
- Abstract(参考訳): ロボット手術において、コンテキスト認識型AIアシスタントを構築するためには、楽器と組織との相互作用を認識することが不可欠である。
視覚言語モデル(VLM)は、外科的知覚のための新しい道を開き、従来のタスク固有のディープラーニングアプローチと比較して、幅広いタスクにおけるより良い一般化を実現している。
しかし,2つの課題は,(1)多くのモデルが時間的情報を効果的に活用していないこと,(2)視覚とテキストの一致が細かなアクションの詳細を欠いていること,の2点である。
これらの問題に対処するために,楽器の軌跡を符号化して時間的動作キューを組み込むフレームワークであるTrajPredを提案する。
さらに,プロンプトチューニングと動詞言い換え技術を導入し,楽器間相互作用認識タスクへのスムーズな適応を実現する。
腹腔鏡下ベンチマークであるColecT50では,平均精度とTop-K精度が向上した。
また,楽器間相互作用領域の視覚的埋め込みが,視覚的およびテキスト的埋め込みのコサイン類似性を可視化することにより,対応するテキストに適合するかどうかについても検討した。
可視化の結果,提案手法は関連した視覚表現とテキスト表現のアライメントを改善することが示唆された。
関連論文リスト
- Contextualized Representation Learning for Effective Human-Object Interaction Detection [17.242400169885453]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
本研究では,条件付き推論と文脈的プロンプトを統合した文脈適応型表現学習を提案する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-16T08:03:16Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。