論文の概要: Learning Trajectory-Word Alignments for Video-Language Tasks
- arxiv url: http://arxiv.org/abs/2301.01953v1
- Date: Thu, 5 Jan 2023 08:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:10:28.259216
- Title: Learning Trajectory-Word Alignments for Video-Language Tasks
- Title(参考訳): 映像言語課題のための学習軌跡単語アライメント
- Authors: Xu Yang, Zhangzikang Li, Haiyang Xu, Hanwang Zhang, Qinghao Ye,
Chenliang Li, Ming Yan, Yu Zhang, Fei Huang, Songfang Huang
- Abstract要約: 本稿では,TW-BERTを用いてトラジェクティブ・ワードアライメントを学習し,ビデオ言語タスクの解法を提案する。
このようなアライメントは、新しく設計されたトラジェクトリ・トゥ・ワード(T2W)の注意によって学習される。
また,ビデオエンコーダとテキストエンコーダによって計算された埋め込み空間を埋め込むための,きめ細かなアライメント前フューズ戦略を提案する。
- 参考スコア(独自算出の注目度): 96.62902216727548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning objects with words plays a critical role in Image-Language BERT
(IL-BERT) and Video-Language BERT (VDL-BERT). Different from the image case
where an object covers some spatial patches, an object in a video usually
appears as an object trajectory, i.e., it spans over a few spatial but longer
temporal patches and thus contains abundant spatiotemporal contexts. However,
modern VDL-BERTs neglect this trajectory characteristic that they usually
follow IL-BERTs to deploy the patch-to-word (P2W) attention while such
attention may over-exploit trivial spatial contexts and neglect significant
temporal contexts. To amend this, we propose a novel TW-BERT to learn
Trajectory-Word alignment for solving video-language tasks. Such alignment is
learned by a newly designed trajectory-to-word (T2W) attention. Besides T2W
attention, we also follow previous VDL-BERTs to set a word-to-patch (W2P)
attention in the cross-modal encoder. Since T2W and W2P attentions have diverse
structures, our cross-modal encoder is asymmetric. To further help this
asymmetric cross-modal encoder build robust vision-language associations, we
propose a fine-grained ``align-before-fuse'' strategy to pull close the
embedding spaces calculated by the video and text encoders. By the proposed
strategy and T2W attention, our TW-BERT achieves SOTA performances on
text-to-video retrieval tasks, and comparable performances on video question
answering tasks with some VDL-BERTs trained on much more data. The code will be
available in the supplementary material.
- Abstract(参考訳): Image-Language BERT (IL-BERT) と Video-Language BERT (VDL-BERT) では、言葉でオブジェクトを調整することが重要な役割を果たす。
オブジェクトがいくつかの空間的パッチをカバーしている場合とは異なり、ビデオ内のオブジェクトは通常、オブジェクトの軌道として現れる、すなわち、いくつかの空間的だがより長い時間的パッチにまたがるので、豊富な時空間的コンテキストを含む。
しかしながら、現代のVDL-BERTは、通常、パッチ・トゥ・ワード(P2W)の注意を配置するためにIL-BERTに従うというこの軌跡を無視する一方、そのような注意は、自明な空間的コンテキストを過度に露出し、時間的文脈を無視する。
そこで本稿では,ビデオ言語タスクを解くためのトラジェクティブ・ワードアライメントを学習するための新しいTW-BERTを提案する。
このようなアライメントは、新しく設計されたt2wの注意によって学習される。
また,従来のVDL-BERTを追従して,モーダルエンコーダにワード・トゥ・パッチ(W2P)の注意を設定する。
T2WとW2Pの注意は多様であるため、我々のクロスモーダルエンコーダは非対称である。
この非対称なクロスモーダルエンコーダが堅牢な視覚言語アソシエーションを構築するのに役立ち、ビデオやテキストエンコーダによって計算された埋め込み空間を閉じるための粒度の 'align-before-fuse'' 戦略を提案する。
提案した戦略とT2Wの注目により、我々のTW-BERTは、テキストからビデオまでの検索タスクにおけるSOTAパフォーマンスと、より多くのデータで訓練されたVDL-BERTを用いたビデオ質問応答タスクにおける同等のパフォーマンスを達成する。
コードは補足資料で入手できます。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。