論文の概要: fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.19670v1
- Date: Tue, 25 Mar 2025 13:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:12.740664
- Title: fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models
- Title(参考訳): Fine-CLIP:視覚言語モデルによるゼロショットファイングラインド手術行動認識の強化
- Authors: Saurav Sharma, Didier Mutter, Nicolas Padoy,
- Abstract要約: 本稿では,三重項定式化におけるオブジェクト中心の特徴とレバー年齢を学習するファインCLIPを提案する。
fine-CLIPはF1およびmAPの著明な改善を示し、新規な手術三重項のゼロショット認識を増強した。
- 参考スコア(独自算出の注目度): 3.8352069691069084
- License:
- Abstract: While vision-language models like CLIP have advanced zero-shot surgical phase recognition, they struggle with fine-grained surgical activities, especially action triplets. This limitation arises because current CLIP formulations rely on global image features, which overlook the fine-grained semantics and contextual details crucial for complex tasks like zero-shot triplet recognition. Furthermore, these models do not explore the hierarchical structure inherent in triplets, reducing their ability to generalize to novel triplets. To address these challenges, we propose fine-CLIP, which learns object-centric features and lever- ages the hierarchy in triplet formulation. Our approach integrates three components: hierarchical prompt modeling to capture shared semantics, LoRA-based vision backbone adaptation for enhanced feature extraction, and a graph-based condensation strategy that groups similar patch features into meaningful object clusters. Since triplet classification is a challenging task, we introduce an alternative yet meaningful base-to-novel generalization benchmark with two settings on the CholecT50 dataset: Unseen-Target, assessing adaptability to triplets with novel anatomical structures, and Unseen-Instrument-Verb, where models need to generalize to novel instrument-verb interactions. fine-CLIP shows significant improvements in F1 and mAP, enhancing zero-shot recognition of novel surgical triplets.
- Abstract(参考訳): CLIPのような視覚言語モデルでは、ゼロショットの外科的位相認識が進歩しているが、細かな外科的活動、特にアクショントリプレットに苦慮している。
この制限は、現在のCLIPの定式化がグローバルなイメージ機能に依存しているためである。
さらに、これらのモデルは三重項に固有の階層構造を探索せず、新しい三重項に一般化する能力を低下させる。
これらの課題に対処するために,三重項定式化におけるオブジェクト中心の特徴とレバー年齢を学習するファインCLIPを提案する。
提案手法は,共有セマンティクスをキャプチャするための階層的プロンプトモデリング,機能抽出のためのLoRAベースの視覚バックボーン適応,および類似のパッチ機能を意味のあるオブジェクトクラスタにグループ化するグラフベースの凝縮戦略の3つのコンポーネントを統合する。
三重項分類は難しい課題であるため、ColecT50データセットに2つの設定を持つ代替のベース・ツー・ノーベル一般化ベンチマークを導入する: Unseen-Target、新しい解剖学的構造を持つ三重項への適応性を評価する、Unseen-Instrument-Verb。
fine-CLIPはF1およびmAPの著明な改善を示し、新規な手術三重項のゼロショット認識を増強した。
関連論文リスト
- Leveraging MLLM Embeddings and Attribute Smoothing for Compositional Zero-Shot Learning [21.488599805772054]
合成ゼロショット学習は、見かけの合成から学んだ属性やオブジェクトの新規な構成を認識することを目的としている。
以前の作業では、同じ属性を共有するイメージペア間の共有部分と排他的部分を抽出することで、属性とオブジェクトをアンタングルにする。
本稿では,MLLM (Multimodal Large Language Model) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T07:55:54Z) - Surgical Triplet Recognition via Diffusion Model [59.50938852117371]
外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-06-19T04:43:41Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Dual-Modal Prompting for Sketch-Based Image Retrieval [76.12076969949062]
本稿では、適応的なプロンプト戦略を設計したデュアルモーダルCLIP(DP-CLIP)ネットワークを提案する。
ターゲットカテゴリとテキストカテゴリラベル内に一連の画像を用いて,カテゴリ適応型プロンプトトークンとチャネルスケールをそれぞれ構成する。
我々のDP-CLIPは、Sketchyデータセット上のAcc.@1において、最先端の微細ゼロショット法を7.3%向上させる。
論文 参考訳(メタデータ) (2024-04-29T13:43:49Z) - Surgical Action Triplet Detection by Mixed Supervised Learning of
Instrument-Tissue Interactions [5.033722555649178]
手術的三重奏法(英: surgery action triplet)は、楽器と音の相互作用を(構成、動詞、ターゲット)の組み合わせとして記述する。
この研究は、従来の三重項認識タスクよりも難しいが正確である外科的三重項検出に焦点を当てている。
マルチクラス・インスツルメンツ・アウェア・トランスフォーマー・インタラクショングラフの2段階ネットワークであるMCIT-IGを提案する。
論文 参考訳(メタデータ) (2023-07-18T18:47:48Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Triplet Contrastive Learning for Unsupervised Vehicle Re-identification [55.445358749042384]
部分的特徴学習は、車両の再識別におけるセマンティック理解にとって重要な技術である。
本稿では,クラスタ機能を活用したTCL(Triplet Contrastive Learning framework)を提案する。
論文 参考訳(メタデータ) (2023-01-23T15:52:12Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - Learning Embeddings for Image Clustering: An Empirical Study of Triplet
Loss Approaches [10.42820615166362]
我々は,Triplet Lossによる特徴空間埋め込みの文脈において,k平均クラスタリングと相関クラスタリングという2つの異なる画像クラスタリングの目的を評価する。
我々は、三重項損失の2つの人気のあるバージョンを最適化することで、差別的特徴を学習するために畳み込みニューラルネットワークを訓練する。
本稿では,形式的クラスタリングの目的に対して望ましい特性を示し,既存の手法より優れる,新しい単純なトリプルトロスの定式化を提案する。
論文 参考訳(メタデータ) (2020-07-06T23:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。