論文の概要: BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions
- arxiv url: http://arxiv.org/abs/2201.04850v1
- Date: Thu, 13 Jan 2022 09:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:54:04.899153
- Title: BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions
- Title(参考訳): BridgeFormer: 複数質問によるビデオテキスト検索
- Authors: Yuying Ge, Yixiao Ge, Xihui Liu, Dian Li, Ying Shan, Xiaohu Qie and
Ping Luo
- Abstract要約: 我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
- 参考スコア(独自算出の注目度): 38.843518809230524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training a model to learn transferable video-text representation for
retrieval has attracted a lot of attention in recent years. Previous dominant
works mainly adopt two separate encoders for efficient retrieval, but ignore
local associations between videos and texts. Another line of research uses a
joint encoder to interact video with texts, but results in low efficiency since
each text-video pair needs to be fed into the model. In this work, we enable
fine-grained video-text interactions while maintaining high efficiency for
retrieval via a novel pretext task, dubbed as Multiple Choice Questions (MCQ),
where a parametric module BridgeFormer is trained to answer the "questions"
constructed by the text features via resorting to the video features.
Specifically, we exploit the rich semantics of text (i.e., nouns and verbs) to
build questions, with which the video encoder can be trained to capture more
regional content and temporal dynamics. In the form of questions and answers,
the semantic associations between local video-text features can be properly
established. BridgeFormer is able to be removed for downstream retrieval,
rendering an efficient and flexible model with only two encoders. Our method
outperforms state-of-the-art methods on the popular text-to-video retrieval
task in five datasets with different experimental setups (i.e., zero-shot and
fine-tune), including HowTo100M (one million videos). We further conduct
zero-shot action recognition, which can be cast as video-to-text retrieval, and
our approach also significantly surpasses its counterparts. As an additional
benefit, our method achieves competitive results with much shorter pre-training
videos on single-modality downstream tasks, e.g., action recognition with
linear evaluation.
- Abstract(参考訳): 近年,転送可能な映像テキスト表現を学習するための事前学習が注目されている。
従来の支配的な著作は主に効率的な検索のために2つの別個のエンコーダを採用するが、ビデオとテキスト間の局所的な関連は無視する。
別の研究の行では、共同エンコーダを使ってテキストとビデオの対話を行うが、各テキストとビデオのペアをモデルに入力する必要があるため、効率が低下する。
本研究では,マルチセレクション質問(mcq)と呼ばれる新しいプリテキストタスクによる検索に高い効率を維持しつつ,詳細なビデオテキスト間インタラクションを可能にし,パラメトリックモジュールであるbridgeformerを,ビデオ機能を利用してテキスト機能によって構築された"質問"に答えるように訓練する。
具体的には、テキスト(名詞と動詞)の豊富な意味論を利用して、ビデオエンコーダがより地域的内容と時間的ダイナミクスを捉えるように訓練できる質問を構築する。
質問と回答の形式では、ローカルなビデオテキスト機能間のセマンティックな関連を適切に確立することができる。
BridgeFormerは、下流の検索のために削除でき、2つのエンコーダだけで効率的で柔軟なモデルをレンダリングできる。
提案手法は,ハウト100M(100万ビデオ)を含む実験的なセットアップ(ゼロショット,ファインチューン)の異なる5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法より優れている。
我々はさらに,ビデオからテキストへの検索としてキャスティングできるゼロショット動作認識を行い,そのアプローチは,そのアプローチを大きく上回っている。
追加の利点として,単一モダリティ下流タスク,例えば線形評価による動作認識において,より短い事前学習ビデオによる競合結果が得られる。
関連論文リスト
- Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。