論文の概要: Time-Contrastive Pretraining for In-Context Image and Video Segmentation
- arxiv url: http://arxiv.org/abs/2506.17837v1
- Date: Sat, 21 Jun 2025 22:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.608521
- Title: Time-Contrastive Pretraining for In-Context Image and Video Segmentation
- Title(参考訳): インコンテクスト画像とビデオセグメンテーションのための時間差事前学習
- Authors: Assefa Wahd, Jacob Jaremko, Abhilash Hareendranathan,
- Abstract要約: In-context Learning (ICL)は、ラベル付きデータを最小限にした新しいタスクを可能にする。
我々は、視覚的ICLのためのプロンプトレトリバーを事前訓練する時間的コントラスト型自己監督型目標であるTemporalを紹介した。
ICLをビデオオブジェクトセグメンテーション(VOS)タスクとして定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables generalization to new tasks with minimal labeled data. However, mainstream ICL approaches rely on a gridding strategy, which lacks the flexibility required for vision applications. We introduce Temporal, a time-contrastive self-supervised objective that pretrains a prompt retriever for visual ICL, and formulate ICL as a video object segmentation (VOS) task. Temporal addresses key limitations of grid-based methods that restrict the number and resolution of context images. By reframing ICL as a VOS problem, our approach supports a variable number of context images while preserving their full resolution. To address the challenge of selecting optimal context sets for queries, we pretrain a prompt retriever on videos via self-supervised learning, where adjacent frames serve as positives and distant frames as negatives. For image segmentation, the prompt retriever selects relevant sequences that, when combined with the query, form coherent videos for VOS processing. For video segmentation, it identifies keyframes, predicts their masks using our ICL pipeline, and propagates them throughout the sequence. When evaluated on MICCAI FLARE 2022, our method achieves substantial improvements over baselines: 90.95% Dice score for image segmentation (10.64% improvement) and 92.45% Dice for video segmentation (14.88% improvement).
- Abstract(参考訳): In-context Learning (ICL) は最小ラベル付きデータによるタスクの一般化を可能にする。
しかし、主流のICLアプローチは、ビジョンアプリケーションに必要な柔軟性に欠けるグリッド方式に依存している。
我々は,視覚的ICLのためのプロンプトレトリバーを事前訓練する時間的コントラスト型自己監督型目標であるTemporalを導入し,ビデオオブジェクトセグメンテーション(VOS)タスクとしてICLを定式化する。
テンポラルは、コンテキストイメージの数と解像度を制限するグリッドベースのメソッドの重要な制限に対処する。
ICLをVOS問題とみなすことにより,本手法は,全解像度を維持しながら,可変数のコンテキスト画像をサポートする。
クエリに対して最適なコンテキストセットを選択することの課題に対処するため、自己教師付き学習を通じてビデオ上でプロンプトレトリバーを事前訓練する。
画像セグメンテーションでは、プロンプトレトリバーが関連するシーケンスを選択し、クエリと組み合わせるとVOS処理用のコヒーレントなビデオを生成する。
ビデオセグメンテーションでは、キーフレームを特定し、ICLパイプラインを使用してマスクを予測し、シーケンス全体にわたってそれを伝搬する。
MICCAI FLARE 2022で評価すると、90.95%のイメージセグメンテーションのディススコア(10.64%)と92.45%の動画セグメンテーションのディススコア(14.88%)がベースラインよりも大幅に改善されている。
関連論文リスト
- ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。