論文の概要: Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text
Retrieval
- arxiv url: http://arxiv.org/abs/2301.12644v1
- Date: Mon, 30 Jan 2023 03:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:43:53.598269
- Title: Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text
Retrieval
- Title(参考訳): アライメント前のタグ付け:ビデオテキスト検索のためのマルチモーダルタグの統合
- Authors: Yizhen Chen, Jie Wang, Lijian Lin, Zhongang Qi, Jin Ma, Ying Shan
- Abstract要約: 近年,映像テキスト検索のための視覚言語アライメント学習が注目されている。
本稿では,タグ付けによってマルチモーダル情報を明示的に統合し,タグをアンカーとして使用することにより,ビデオテキストのアライメントを向上する。
ビデオとテキストの相互作用を強化するために,映像,タグ,テキストのトリプルト入力による共同モーダルエンコーダを構築し,さらに2つの教師付きタスクを実行する。
- 参考スコア(独自算出の注目度): 23.418120617544545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language alignment learning for video-text retrieval arouses a lot of
attention in recent years. Most of the existing methods either transfer the
knowledge of image-text pretraining model to video-text retrieval task without
fully exploring the multi-modal information of videos, or simply fuse
multi-modal features in a brute force manner without explicit guidance. In this
paper, we integrate multi-modal information in an explicit manner by tagging,
and use the tags as the anchors for better video-text alignment. Various
pretrained experts are utilized for extracting the information of multiple
modalities, including object, person, motion, audio, etc. To take full
advantage of these information, we propose the TABLE (TAgging Before aLignmEnt)
network, which consists of a visual encoder, a tag encoder, a text encoder, and
a tag-guiding cross-modal encoder for jointly encoding multi-frame visual
features and multi-modal tags information. Furthermore, to strengthen the
interaction between video and text, we build a joint cross-modal encoder with
the triplet input of [vision, tag, text] and perform two additional supervised
tasks, Video Text Matching (VTM) and Masked Language Modeling (MLM). Extensive
experimental results demonstrate that the TABLE model is capable of achieving
State-Of-The-Art (SOTA) performance on various video-text retrieval benchmarks,
including MSR-VTT, MSVD, LSMDC and DiDeMo.
- Abstract(参考訳): 近年,映像テキスト検索のための視覚言語アライメント学習が注目されている。
既存の手法の多くは、ビデオのマルチモーダル情報を完全に調べることなく、画像テキスト事前学習モデルの知識をビデオテキスト検索タスクに転送するか、明示的なガイダンスなしでマルチモーダル特徴をブルートフォースで融合させる。
本稿では,マルチモーダル情報をタグづけにより明示的に統合し,そのタグをアンカーとして使用することで映像テキストアライメントを改善する。
事前訓練された専門家は、オブジェクト、人、モーション、オーディオなど、複数のモダリティの情報を抽出するために利用される。
これらの情報を最大限に活用するために、視覚エンコーダ、タグエンコーダ、テキストエンコーダ、マルチフレーム視覚特徴とマルチモーダルタグ情報を共同で符号化するタグ案内型クロスモーダルエンコーダからなるTABLE(TAgging Before aLignmEnt)ネットワークを提案する。
さらに,映像とテキストの相互作用を強化するため,[視覚,タグ,テキスト]のトリプレット入力を持つ共用クロスモーダルエンコーダを構築し,さらにビデオテキストマッチング(vtm)とマスク言語モデリング(mlm)という2つの教師ありタスクを実行する。
MSR-VTT, MSVD, LSMDC, DiDeMo など, 様々なビデオテキスト検索ベンチマークにおいて, TABLE モデルにより State-Of-The-Art (SOTA) 性能が達成可能であることを示す。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。