論文の概要: CLIP-RL: Surgical Scene Segmentation Using Contrastive Language-Vision Pretraining & Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.04317v1
- Date: Sun, 06 Jul 2025 09:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.115695
- Title: CLIP-RL: Surgical Scene Segmentation Using Contrastive Language-Vision Pretraining & Reinforcement Learning
- Title(参考訳): CLIP-RL:コントラスト型言語ビジョン事前学習と強化学習を用いた手術シーンのセグメンテーション
- Authors: Fatmaelzahraa Ali Ahmed, Muhammad Arsalan, Abdulaziz Al-Ali, Khalid Al-Jalham, Shidin Balakrishnan,
- Abstract要約: 手術シーンのセマンティックセグメンテーションに適した新しいコントラスト言語画像事前学習モデルであるCLIP-RLを紹介する。
我々のモデルは様々な光学的設定で頑健な性能を示した。
我々は、EndoVis 2018とEndoVis 2017データセット上でCLIP-RLを評価した。
- 参考スコア(独自算出の注目度): 3.5147200815226864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding surgical scenes can provide better healthcare quality for patients, especially with the vast amount of video data that is generated during MIS. Processing these videos generates valuable assets for training sophisticated models. In this paper, we introduce CLIP-RL, a novel contrastive language-image pre-training model tailored for semantic segmentation for surgical scenes. CLIP-RL presents a new segmentation approach which involves reinforcement learning and curriculum learning, enabling continuous refinement of the segmentation masks during the full training pipeline. Our model has shown robust performance in different optical settings, such as occlusions, texture variations, and dynamic lighting, presenting significant challenges. CLIP model serves as a powerful feature extractor, capturing rich semantic context that enhances the distinction between instruments and tissues. The RL module plays a pivotal role in dynamically refining predictions through iterative action-space adjustments. We evaluated CLIP-RL on the EndoVis 2018 and EndoVis 2017 datasets. CLIP-RL achieved a mean IoU of 81%, outperforming state-of-the-art models, and a mean IoU of 74.12% on EndoVis 2017. This superior performance was achieved due to the combination of contrastive learning with reinforcement learning and curriculum learning.
- Abstract(参考訳): 外科的シーンを理解することは、特にMIS中に生成される大量のビデオデータによって、患者にとってより良い医療的品質を提供する。
これらのビデオの処理は、洗練されたモデルを訓練するための貴重な資産を生み出す。
本稿では,手術シーンのセマンティックセグメンテーションに適した,新しいコントラスト言語画像事前学習モデルであるCLIP-RLを紹介する。
CLIP-RLは、強化学習とカリキュラム学習を含む新しいセグメンテーションアプローチを示し、フルトレーニングパイプライン中にセグメンテーションマスクの継続的な洗練を可能にする。
我々のモデルでは、オクルージョン、テクスチャのバリエーション、動的照明など、様々な光学的設定において堅牢な性能を示しており、大きな課題を呈している。
CLIPモデルは強力な特徴抽出器として機能し、楽器と組織の区別を強化するリッチな意味的コンテキストをキャプチャする。
RLモジュールは反復的な行動空間調整によって動的に再精製する上で重要な役割を果たす。
我々は、EndoVis 2018とEndoVis 2017データセット上でCLIP-RLを評価した。
CLIP-RLは81%の平均IoUを達成し、最先端モデルを上回っ、2017年のEndoVisでは74.12%の平均IoUを達成した。
この優れた性能は、コントラスト学習と強化学習とカリキュラム学習の組み合わせによって達成された。
関連論文リスト
- Unlocking In-Context Learning for Natural Datasets Beyond Language Modelling [37.36879079951306]
大規模言語モデル(LLM)は文脈学習(ICL)を示す
ICLは自然言語のタスクやドメインに対して高速な適応を提供するが、テキスト以外のモダリティに対しては、その出現は簡単ではない。
ICLの重要な要素として、トレーニングデータ列における正確なトークン反復を同定する。
我々は、様々なビジュアルデータセットのためのICL機能をアンロックし、より困難な脳波分類タスクを、数ショットの学習システムで実行します。
論文 参考訳(メタデータ) (2025-01-09T09:45:05Z) - Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements [0.6990493129893112]
ビジョン言語モデルの最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。
これらの基礎モデル、特にCLIPは、オープン語彙コンピュータビジョンタスクの研究を加速してきた。
本研究では,CLIPのセマンティックセグメンテーション性能を,新しいモジュールの導入と修正によって向上させる。
ITACLIPはセグメンテーションベンチマークの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-18T20:31:38Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。