論文の概要: TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2308.01217v1
- Date: Wed, 2 Aug 2023 15:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:33:27.584086
- Title: TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval
- Title(参考訳): TeachCLIP: 効率的なテキスト・ビデオ検索のための多言語学習
- Authors: Kaibin Tian, Ruixiang Zhao, Hu Hu, Runquan Xie, Fengzong Lian, Zhanhui
Kang and Xirong Li
- Abstract要約: 我々は,CLIP4Clipをベースとした学生ネットワークが,より高度で計算量の多いモデルから学習できるように,マルチグラデーションのTeachCLIPを提案する。
AFAは、学生(教師)にきめ細かい学習(教育)チャンネルを提供する。
- 参考スコア(独自算出の注目度): 12.067700655401364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For text-to-video retrieval (T2VR), which aims to retrieve unlabeled videos
by ad-hoc textual queries, CLIP-based methods are dominating. Compared to
CLIP4Clip which is efficient and compact, the state-of-the-art models tend to
compute video-text similarity by fine-grained cross-modal feature interaction
and matching, putting their scalability for large-scale T2VR into doubt. For
efficient T2VR, we propose TeachCLIP with multi-grained teaching to let a
CLIP4Clip based student network learn from more advanced yet computationally
heavy models such as X-CLIP, TS2-Net and X-Pool . To improve the student's
learning capability, we add an Attentional frame-Feature Aggregation (AFA)
block, which by design adds no extra storage/computation overhead at the
retrieval stage. While attentive weights produced by AFA are commonly used for
combining frame-level features, we propose a novel use of the weights to let
them imitate frame-text relevance estimated by the teacher network. As such,
AFA provides a fine-grained learning (teaching) channel for the student
(teacher). Extensive experiments on multiple public datasets justify the
viability of the proposed method.
- Abstract(参考訳): アドホックなテキストクエリによるラベルなしビデオの検索を目的としたt2vr(text-to-video retrieval)では,クリップベースの手法が優勢だ。
効率的でコンパクトなCLIP4Clipと比較して、最先端のモデルは細粒度のクロスモーダルな機能相互作用とマッチングによってビデオテキストの類似性を計算し、大規模なT2VRのスケーラビリティを疑う傾向にある。
効率的なT2VRを実現するために,CLIP4Clipをベースとした学生ネットワークが,X-CLIP,TS2-Net,X-Poolといったより先進的で計算量の多いモデルから学習できるように,TeachCLIPをマルチグラデーションで提案する。
学生の学習能力を向上させるために,注意フレーム特徴集約 (afa) ブロックを追加した。
afaが生成する注意重みは、フレームレベルの特徴を組み合わせるために一般的に用いられるが、教師ネットワークによって推定されるフレームテキストの妥当性を模倣する新しい重み付けの利用を提案する。
そのため、AFAは学生(教師)にきめ細かい学習(教育)チャンネルを提供する。
複数のパブリックデータセットに対する広範囲な実験は、提案手法の有効性を正当化する。
関連論文リスト
- VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip
Retrieval [31.7091206926183]
CLIP(Contrastive Language-Image Pre-training)は、Web収集された画像テキストデータセットから学習する視覚概念の力を示した。
本稿では,CLIPモデルの知識をエンドツーエンドにビデオ言語検索に転送するCLIP4Clipモデルを提案する。
論文 参考訳(メタデータ) (2021-04-18T13:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。