Fugu-MT 論文翻訳(概要): Masking Modalities for Cross-modal Video Retrieval

論文の概要: Masking Modalities for Cross-modal Video Retrieval

arxiv url: http://arxiv.org/abs/2111.01300v2
Date: Wed, 3 Nov 2021 12:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-04 10:46:04.805855
Title: Masking Modalities for Cross-modal Video Retrieval
Title（参考訳）: クロスモーダルビデオ検索のためのマスキングモード
Authors: Valentin Gabeur, Arsha Nagrani, Chen Sun, Karteek Alahari, Cordelia Schmid
Abstract要約: ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。 How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
参考スコア（独自算出の注目度）: 93.10669981708878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training on large scale unlabelled datasets has shown impressive performance improvements in the fields of computer vision and natural language processing. Given the advent of large-scale instructional video datasets, a common strategy for pre-training video encoders is to use the accompanying speech as weak supervision. However, as speech is used to supervise the pre-training, it is never seen by the video encoder, which does not learn to process that modality. We address this drawback of current pre-training methods, which fail to exploit the rich cues in spoken language. Our proposal is to pre-train a video encoder using all the available video modalities as supervision, namely, appearance, sound, and transcribed speech. We mask an entire modality in the input and predict it using the other two modalities. This encourages each modality to collaborate with the others, and our video encoder learns to process appearance and audio as well as speech. We show the superior performance of our "modality masking" pre-training approach for video retrieval on the How2R, YouCook2 and Condensed Movies datasets.
Abstract（参考訳）: 大規模アンラベリングデータセットの事前トレーニングでは、コンピュータビジョンと自然言語処理の分野で顕著なパフォーマンス向上が見られた。大規模ビデオデータセットの出現を考えると、ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使うことである。しかし、音声は事前学習を監督するために使用されるため、ビデオエンコーダには見られず、そのモダリティを処理することを学ばない。音声言語における豊富な手がかりを活用できない現在の事前学習手法の欠点に対処した。提案手法は,ビデオモダリティの全てを監督,すなわち外見,音,書き起こし音声として利用して,ビデオエンコーダの事前訓練を行うことである。入力の全体モダリティを隠蔽し、他の2つのモダリティを使って予測する。これにより、それぞれのモダリティが他の人とコラボレーションすることを奨励し、私たちのビデオエンコーダは、音声と同様に外観や音声を処理することを学びます。 How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。

関連論文リスト

SpeechForensics: Audio-Visual Speech Representation Learning for Face Forgery Detection [13.258458244131448]
顔の偽造ビデオの検出は、デジタル鑑識の分野では、いまだに深刻な課題だ。我々は,自己教師付きマスキング予測タスクを用いて,実映像における音声・視覚音声の正確な表現を学習する。提案手法は, クロスデータセットの一般化とロバストネスの観点から, 最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-08-13T16:09:36Z)
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。 Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文参考訳（メタデータ） (2024-06-22T01:36:11Z)
Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。 0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文参考訳（メタデータ） (2024-05-12T07:59:46Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文参考訳（メタデータ） (2022-05-04T13:34:07Z)
End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文参考訳（メタデータ） (2022-01-20T16:16:21Z)
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文参考訳（メタデータ） (2020-07-08T14:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。