論文の概要: Cascaded Multilingual Audio-Visual Learning from Videos
- arxiv url: http://arxiv.org/abs/2111.04823v1
- Date: Mon, 8 Nov 2021 20:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:08:28.056037
- Title: Cascaded Multilingual Audio-Visual Learning from Videos
- Title(参考訳): 映像からの多言語音声-視覚学習
- Authors: Andrew Rouditchenko, Angie Boggust, David Harwath, Samuel Thomas,
Hilde Kuehne, Brian Chen, Rameswar Panda, Rogerio Feris, Brian Kingsbury,
Michael Picheny, James Glass
- Abstract要約: 本稿では、英語ビデオで訓練されたモデルを利用して、他の言語の音声・視覚データに適用するケースケードアプローチを提案する。
本手法では,日本語動画のみの学習に比べて,検索性能が10倍近く向上した。
また、日本語とヒンディー語で話される画像のキャプションに対して、英語ビデオで訓練されたモデルを適用し、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 49.44796976615445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore self-supervised audio-visual models that learn from
instructional videos. Prior work has shown that these models can relate spoken
words and sounds to visual content after training on a large-scale dataset of
videos, but they were only trained and evaluated on videos in English. To learn
multilingual audio-visual representations, we propose a cascaded approach that
leverages a model trained on English videos and applies it to audio-visual data
in other languages, such as Japanese videos. With our cascaded approach, we
show an improvement in retrieval performance of nearly 10x compared to training
on the Japanese videos solely. We also apply the model trained on English
videos to Japanese and Hindi spoken captions of images, achieving
state-of-the-art performance.
- Abstract(参考訳): 本稿では,指導ビデオから学習する自己教師型音声視覚モデルについて検討する。
以前の研究によると、これらのモデルは、大規模なビデオデータセットでトレーニングした後、音声と音声を視覚コンテンツに関連付けることができるが、それらは英語のビデオでのみ訓練され、評価されている。
多言語音声・視覚表現を学習するために,英語ビデオで訓練されたモデルを活用し,日本語ビデオなど他の言語における音声・視覚データに適用するカスケード手法を提案する。
本手法では,日本語ビデオのみの学習に比べて検索性能が10倍近く向上することを示す。
また,日本語とヒンディー語の音声キャプションに英語ビデオで訓練されたモデルを適用し,最新性能を得た。
関連論文リスト
- Multilingual Visual Speech Recognition with a Single Model by Learning
with Discrete Visual Speech Units [59.84564095008798]
本稿では,1つのモデルを用いた文レベル多言語視覚音声認識について検討する。
近年の音声音声ユニットの成功により、自己監督型視覚音声モデルから抽出した視覚音声特徴を識別して、提案した視覚音声ユニットを得る。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval [39.41224716332499]
多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練する。
我々は、YouCook2ビデオデータセットの英語キャプションを8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
論文 参考訳(メタデータ) (2022-10-07T15:30:24Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval [28.57294189207084]
音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
論文 参考訳(メタデータ) (2020-12-14T08:27:36Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。