論文の概要: Bi-Calibration Networks for Weakly-Supervised Video Representation
Learning
- arxiv url: http://arxiv.org/abs/2206.10491v1
- Date: Tue, 21 Jun 2022 16:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 19:17:19.743336
- Title: Bi-Calibration Networks for Weakly-Supervised Video Representation
Learning
- Title(参考訳): 弱教師付き映像表現学習のためのバイキャリブレーションネットワーク
- Authors: Fuchen Long and Ting Yao and Zhaofan Qiu and Xinmei Tian and Jiebo Luo
and Tao Mei
- Abstract要約: 本稿では,弱い教師付きビデオ表現学習を促進するために,問合せとテキストの相互校正の新たな設計を提案する。
本稿では,バイキャリブレーションネットワーク(BCN)を新たに2つのキャリブレーションを結合して,テキストからクエリへの修正学習を行う。
BCNは3MのWebビデオで学習し、下流タスクの線形モデルプロトコルの下で優れた結果を得る。
- 参考スコア(独自算出の注目度): 153.54638582696128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The leverage of large volumes of web videos paired with the searched queries
or surrounding texts (e.g., title) offers an economic and extensible
alternative to supervised video representation learning. Nevertheless, modeling
such weakly visual-textual connection is not trivial due to query polysemy
(i.e., many possible meanings for a query) and text isomorphism (i.e., same
syntactic structure of different text). In this paper, we introduce a new
design of mutual calibration between query and text to boost weakly-supervised
video representation learning. Specifically, we present Bi-Calibration Networks
(BCN) that novelly couples two calibrations to learn the amendment from text to
query and vice versa. Technically, BCN executes clustering on all the titles of
the videos searched by an identical query and takes the centroid of each
cluster as a text prototype. The query vocabulary is built directly on query
words. The video-to-text/video-to-query projections over text prototypes/query
vocabulary then start the text-to-query or query-to-text calibration to
estimate the amendment to query or text. We also devise a selection scheme to
balance the two corrections. Two large-scale web video datasets paired with
query and title for each video are newly collected for weakly-supervised video
representation learning, which are named as YOVO-3M and YOVO-10M, respectively.
The video features of BCN learnt on 3M web videos obtain superior results under
linear model protocol on downstream tasks. More remarkably, BCN trained on the
larger set of 10M web videos with further fine-tuning leads to 1.6%, and 1.8%
gains in top-1 accuracy on Kinetics-400, and Something-Something V2 datasets
over the state-of-the-art TDN, and ACTION-Net methods with ImageNet
pre-training. Source code and datasets are available at
\url{https://github.com/FuchenUSTC/BCN}.
- Abstract(参考訳): 検索されたクエリや周辺テキスト(タイトルなど)と組み合わせた大量のウェブビデオの活用は、教師付きビデオ表現学習の経済的かつ拡張可能な代替手段となる。
しかし、このような弱い視覚的・テキスト的接続のモデリングは、クエリ多義性(すなわち、クエリの多くの意味)とテキスト同型性(すなわち、異なるテキストの同じ構文構造)のため、簡単ではない。
本稿では,弱い教師付きビデオ表現学習を促進するために,クエリとテキスト間の相互校正設計を提案する。
具体的には,バイキャリブレーションネットワーク(BCN)を新たに2つのキャリブレーションを結合して,テキストからクエリへの修正学習を行う。
技術的には、BCNは同じクエリで検索されたすべてのビデオのタイトルにクラスタリングを実行し、各クラスタのセントロイドをテキストプロトタイプとして取り込む。
クエリ語彙はクエリワードに基づいて直接構築される。
テキストプロトタイプ/クエリボキャブラリ上のビデオ-テキスト/ビデオ-クエリープロジェクションは、テキスト-クエリーまたはクエリ--テキストキャリブレーションを開始して、クエリーまたはテキストへの修正を見積もる。
2つの補正のバランスをとるための選択スキームも考案する。
各ビデオに対する問合せとタイトルを組み合わせた2つの大規模Webビデオデータセットを新たに収集し,それぞれYOVO-3MとYOVO-10Mと命名した。
3m web ビデオで学習した bcn のビデオ特徴は,下流タスクにおける線形モデルプロトコル下で優れた結果を得た。
さらに注目すべきは、さらに微調整された10mのwebビデオセットでトレーニングされたbcnは、1.6%となり、kinetics-400ではtop-1の精度が1.8%向上した。
ソースコードとデータセットは \url{https://github.com/FuchenUSTC/BCN} で入手できる。
関連論文リスト
- Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。