Fugu-MT 論文翻訳(概要): MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization

論文の概要: MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization

arxiv url: http://arxiv.org/abs/2203.07086v1
Date: Mon, 14 Mar 2022 13:15:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-15 15:55:56.721032
Title: MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization
Title（参考訳）: mdmmt-2: ビデオ検索のためのマルチドメインマルチモーダルトランスフォーマー : 一般化への新たな一歩
Authors: Alexander Kunitsyn, Maksim Kalashnikov, Maksim Dzabraev, Andrei Ivaniuta
Abstract要約: 3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
参考スコア（独自算出の注目度）: 65.09758931804478
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work we present a new State-of-The-Art on the text-to-video retrieval task on MSR-VTT, LSMDC, MSVD, YouCook2 and TGIF obtained by a single model. Three different data sources are combined: weakly-supervised videos, crowd-labeled text-image pairs and text-video pairs. A careful analysis of available pre-trained networks helps to choose the best prior-knowledge ones. We introduce three-stage training procedure that provides high transfer knowledge efficiency and allows to use noisy datasets during training without prior knowledge degradation. Additionally, double positional encoding is used for better fusion of different modalities and a simple method for non-square inputs processing is suggested.
Abstract（参考訳）: 本稿では,単一のモデルで得られたmsr-vtt,lsmdc,msvd,youcook2,tgifのテキスト対ビデオ検索タスクについて,最新の技術を紹介する。 3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。本稿では,高い転送知識効率を提供し,事前知識の低下を伴わずに学習中にノイズの多いデータセットを使用できる3段階の学習手順を提案する。さらに、異なるモダリティの融合に二重位置符号化を用い、非二乗入力処理の簡単な方法を提案する。

関連論文リスト

Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。 3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文参考訳（メタデータ） (2025-04-02T17:59:57Z)
Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval [24.764393859378544]
ビデオ検索のためのモダリティ補助概念(MAC-VR)を紹介する。我々は、潜在空間におけるモダリティの整合と、補助潜在概念の学習と整合性を提案する。 5つの多様なデータセットについて広範な実験を行う。
論文参考訳（メタデータ） (2025-04-02T10:56:01Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文参考訳（メタデータ） (2023-09-20T06:08:11Z)
MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer [12.544216587327387]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文参考訳（メタデータ） (2023-04-12T15:50:19Z)
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文参考訳（メタデータ） (2022-06-05T01:43:52Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文参考訳（メタデータ） (2021-08-23T07:24:57Z)
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。 2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文参考訳（メタデータ） (2020-02-15T10:03:25Z)
Delving Deeper into the Decoder for Video Captioning [23.202746094988715]
ビデオキャプションは、自然言語文を用いてビデオクリップを記述することを目的とした、高度なマルチモーダルタスクである。我々はデコーダについて徹底的な調査を行い、モデルの性能を向上させるために3つの手法を採用する。 Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSR-VTT) データセットで実証されている。
論文参考訳（メタデータ） (2020-01-16T02:18:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。