論文の概要: VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2211.12764v1
- Date: Wed, 23 Nov 2022 08:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:38:36.892716
- Title: VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval
- Title(参考訳): VoP: クロスモーダル検索のためのテキストビデオ協調プロンプトチューニング
- Authors: Siteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv, Yuyuan
Li, Donglin Wang
- Abstract要約: 本稿では,テキストビデオ検索タスクを効率的にチューニングするためのVoP: Text-Video Co-operative Prompt Tuningを提案する。
提案されたVoPは、ビデオとテキストの両方のプロンプトを持つエンドツーエンドフレームワークであり、トレーニング可能なパラメータがわずか0.1%である強力なベースラインと見なすことができる。
- 参考スコア(独自算出の注目度): 22.05882395457638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent studies leverage the pre-trained CLIP for text-video cross-modal
retrieval by tuning the backbone with additional heavy modules, which not only
brings huge computational burdens with much more parameters, but also leads to
the knowledge forgetting from upstream models.In this work, we propose the VoP:
Text-Video Co-operative Prompt Tuning for efficient tuning on the text-video
retrieval task. The proposed VoP is an end-to-end framework with both video &
text prompts introducing, which can be regarded as a powerful baseline with
only 0.1% trainable parameters. Further, based on the spatio-temporal
characteristics of videos, we develop three novel video prompt mechanisms to
improve the performance with different scales of trainable parameters. The
basic idea of the VoP enhancement is to model the frame position, frame
context, and layer function with specific trainable prompts, respectively.
Extensive experiments show that compared to full fine-tuning, the enhanced VoP
achieves a 1.4% average R@1 gain across five text-video retrieval benchmarks
with 6x less parameter overhead. The code will be available at
https://github.com/bighuang624/VoP.
- Abstract(参考訳): 近年,テキストビデオのクロスモーダル検索にプリトレーニングされたCLIPを付加的な重モジュールでチューニングすることで,大量のパラメータを伴って膨大な計算負担を発生させるだけでなく,上流モデルからの知識を忘れる要因となっている。本研究では,テキストビデオ検索タスクを効率的にチューニングするためのVoP: Text-Video Co-operative Prompt Tuningを提案する。
提案されたVoPはビデオとテキストの両方のプロンプトを備えたエンドツーエンドフレームワークであり、トレーニング可能なパラメータがわずか0.1%の強力なベースラインと見なすことができる。
さらに,ビデオの時空間特性に基づいて,トレーニング可能なパラメータの尺度の異なる性能向上のための3つの新しいビデオプロンプト機構を開発した。
VoP拡張の基本的な考え方は、それぞれ特定のトレーニング可能なプロンプトでフレーム位置、フレームコンテキスト、レイヤ関数をモデル化することである。
大規模な実験によると、拡張されたVoPは完全な微調整に比べて、パラメータのオーバーヘッドが6倍少ない5つのテキストビデオ検索ベンチマークで平均1.4%のR@1ゲインを達成した。
コードはhttps://github.com/bighuang624/vopで入手できる。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - Semi-Parametric Video-Grounded Text Generation [21.506377836451577]
本稿では,セミパラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
ビデオを外部データストアとして扱うことで、SeViTは、いくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
論文 参考訳(メタデータ) (2023-01-27T03:00:43Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。