論文の概要: Cascaded Multilingual Audio-Visual Learning from Videos
- arxiv url: http://arxiv.org/abs/2111.04823v1
- Date: Mon, 8 Nov 2021 20:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:08:28.056037
- Title: Cascaded Multilingual Audio-Visual Learning from Videos
- Title(参考訳): 映像からの多言語音声-視覚学習
- Authors: Andrew Rouditchenko, Angie Boggust, David Harwath, Samuel Thomas,
Hilde Kuehne, Brian Chen, Rameswar Panda, Rogerio Feris, Brian Kingsbury,
Michael Picheny, James Glass
- Abstract要約: 本稿では、英語ビデオで訓練されたモデルを利用して、他の言語の音声・視覚データに適用するケースケードアプローチを提案する。
本手法では,日本語動画のみの学習に比べて,検索性能が10倍近く向上した。
また、日本語とヒンディー語で話される画像のキャプションに対して、英語ビデオで訓練されたモデルを適用し、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 49.44796976615445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore self-supervised audio-visual models that learn from
instructional videos. Prior work has shown that these models can relate spoken
words and sounds to visual content after training on a large-scale dataset of
videos, but they were only trained and evaluated on videos in English. To learn
multilingual audio-visual representations, we propose a cascaded approach that
leverages a model trained on English videos and applies it to audio-visual data
in other languages, such as Japanese videos. With our cascaded approach, we
show an improvement in retrieval performance of nearly 10x compared to training
on the Japanese videos solely. We also apply the model trained on English
videos to Japanese and Hindi spoken captions of images, achieving
state-of-the-art performance.
- Abstract(参考訳): 本稿では,指導ビデオから学習する自己教師型音声視覚モデルについて検討する。
以前の研究によると、これらのモデルは、大規模なビデオデータセットでトレーニングした後、音声と音声を視覚コンテンツに関連付けることができるが、それらは英語のビデオでのみ訓練され、評価されている。
多言語音声・視覚表現を学習するために,英語ビデオで訓練されたモデルを活用し,日本語ビデオなど他の言語における音声・視覚データに適用するカスケード手法を提案する。
本手法では,日本語ビデオのみの学習に比べて検索性能が10倍近く向上することを示す。
また,日本語とヒンディー語の音声キャプションに英語ビデオで訓練されたモデルを適用し,最新性能を得た。
関連論文リスト
- Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,タイ語を用いた未保存言語における既存の音声言語モデルの性能について検討する。
多言語バックボーン上に構築されているにもかかわらず、音声言語モデルは言語間の創発能力を示すものではない。
本稿では,音声理解と音声指示追従機能を単一統一モデルに統合する。
論文 参考訳(メタデータ) (2024-09-17T09:04:03Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval [39.41224716332499]
多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練する。
我々は、YouCook2ビデオデータセットの英語キャプションを8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
論文 参考訳(メタデータ) (2022-10-07T15:30:24Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。