論文の概要: X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2203.15086v1
- Date: Mon, 28 Mar 2022 20:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 14:14:39.660554
- Title: X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval
- Title(参考訳): X-Pool:テキストビデオ検索のためのクロスプラットフォーム言語ビデオアテンション
- Authors: Satya Krishna Gorti, Noel Vouitsis, Junwei Ma, Keyvan Golestan,
Maksims Volkovs, Animesh Garg, Guangwei Yu
- Abstract要約: テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
- 参考スコア(独自算出の注目度): 26.581384985173116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-video retrieval, the objective is to learn a cross-modal similarity
function between a text and a video that ranks relevant text-video pairs higher
than irrelevant pairs. However, videos inherently express a much wider gamut of
information than texts. Instead, texts often capture sub-regions of entire
videos and are most semantically similar to certain frames within videos.
Therefore, for a given text, a retrieval model should focus on the text's most
semantically similar video sub-regions to make a more relevant comparison. Yet,
most existing works aggregate entire videos without directly considering text.
Common text-agnostic aggregations schemes include mean-pooling or
self-attention over the frames, but these are likely to encode misleading
visual information not described in the given text. To address this, we propose
a cross-modal attention model called X-Pool that reasons between a text and the
frames of a video. Our core mechanism is a scaled dot product attention for a
text to attend to its most semantically similar frames. We then generate an
aggregated video representation conditioned on the text's attention weights
over the frames. We evaluate our method on three benchmark datasets of MSR-VTT,
MSVD and LSMDC, achieving new state-of-the-art results by up to 12% in relative
improvement in Recall@1. Our findings thereby highlight the importance of joint
text-video reasoning to extract important visual cues according to text. Full
code and demo can be found at: https://layer6ai-labs.github.io/xpool/
- Abstract(参考訳): テキスト・ビデオ検索では、テキストとビデオの相互モーダル類似度関数を学習し、関連するテキスト・ビデオ対を無関係対よりも上位にランク付けする。
しかし、ビデオは本質的にテキストよりもずっと広い範囲の情報を表現している。
その代わり、テキストはビデオ全体のサブリージョンをキャプチャし、ビデオ内の特定のフレームに最もセマンティックに類似している。
したがって、あるテキストに対して、検索モデルはテキストの最も意味的に類似したビデオサブリージョンに焦点を当て、より関連性の高い比較を行う必要がある。
しかし、既存の作品の多くはテキストを直接考慮せずにビデオ全体を集約している。
一般的なテキストに依存しないアグリゲーションスキームには、フレーム上の平均プーリングや自己注意が含まれるが、これらは与えられたテキストに記述されていない誤解を招く視覚情報をエンコードする可能性が高い。
そこで本稿では,テキストと動画のフレーム間を理由とするクロスモーダル注意モデルであるx-poolを提案する。
私たちのコアメカニズムは、テキストが最もセマンティックに類似したフレームに参加するための、スケールしたドット製品アテンションです。
次に、フレーム上のテキストの注意重みに基づいて、集約されたビデオ表現を生成する。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセットを用いて, Recall@1の相対的改善率を最大12%向上した。
以上の結果から,テキストによる視覚手がかり抽出におけるテキスト・ビデオ共同推論の重要性が浮き彫りになった。
完全なコードとデモは、https://layer6ai-labs.github.io/xpool/で見ることができる。
関連論文リスト
- Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval [6.656989511639513]
テキスト・トゥ・ビデオ検索(TVR)タスクの鍵は、各テキスト(単語からなる)とビデオ(音声と画像のフレームを構成する)のそれぞれに固有の類似性を学ぶことである。
テキストフレームとワードフレームからなるMGFIと呼ばれる新しい多言語機能相互作用モジュールを提案する。
また,ビデオ中のフレームの表現不足を解消するため,CMFIと呼ばれる音声とテキストのクロスモーダルなインタラクションモジュールも導入した。
論文 参考訳(メタデータ) (2024-06-21T02:28:06Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval [31.79030663958162]
本稿では,テキスト埋め込みを柔軟で回復力のあるセマンティックレンジで強化するテキストモデリング手法T-MASSを提案する。
具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。
T-MASSは5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Video and Text Matching with Conditioned Embeddings [81.81028089100727]
本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
本研究では、クエリの関連情報を考慮し、データセットデータをエンコードする。
我々は、条件付き表現をビデオ誘導機械翻訳に転送し、VATEXの現在の結果を改善した。
論文 参考訳(メタデータ) (2021-10-21T17:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。