論文の概要: AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos
- arxiv url: http://arxiv.org/abs/2006.09199v2
- Date: Tue, 29 Jun 2021 18:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:55:02.732697
- Title: AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos
- Title(参考訳): AVLnet: インストラクショナルビデオからオーディオ・ビジュアル言語表現を学ぶ
- Authors: Andrew Rouditchenko, Angie Boggust, David Harwath, Brian Chen, Dhiraj
Joshi, Samuel Thomas, Kartik Audhkhasi, Hilde Kuehne, Rameswar Panda, Rogerio
Feris, Brian Kingsbury, Michael Picheny, Antonio Torralba, James Glass
- Abstract要約: 本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
- 参考スコア(独自算出の注目度): 69.56522471911396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for learning visually grounded language from videos often
rely on text annotation, such as human generated captions or machine generated
automatic speech recognition (ASR) transcripts. In this work, we introduce the
Audio-Video Language Network (AVLnet), a self-supervised network that learns a
shared audio-visual embedding space directly from raw video inputs. To
circumvent the need for text annotation, we learn audio-visual representations
from randomly segmented video clips and their raw audio waveforms. We train
AVLnet on HowTo100M, a large corpus of publicly available instructional videos,
and evaluate on image retrieval and video retrieval tasks, achieving
state-of-the-art performance. We perform analysis of AVLnet's learned
representations, showing our model utilizes speech and natural sounds to learn
audio-visual concepts. Further, we propose a tri-modal model that jointly
processes raw audio, video, and text captions from videos to learn a
multi-modal semantic embedding space useful for text-video retrieval. Our code,
data, and trained models will be released at avlnet.csail.mit.edu
- Abstract(参考訳): 映像から視覚下地言語を学ぶ現在の方法は、人間が生成したキャプションや自動音声認識(asr)の書き起こしといったテキストアノテーションに依存することが多い。
本研究では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAudio-Video Language Network (AVLnet)を紹介する。
テキストアノテーションの必要性を回避するため,ランダムなセグメント化されたビデオクリップとその生音声波形から音声視覚表現を学習する。
AVLnetは,公開教育ビデオの大規模コーパスであるHowTo100M上で学習し,画像検索および映像検索タスクの評価を行い,最先端のパフォーマンスを実現する。
我々はavlnetの学習表現の分析を行い,音声と自然音を用いて音声・視覚概念の学習を行う。
さらに,ビデオから生音声,ビデオ,テキストキャプションを共同で処理し,テキストビデオ検索に有用なマルチモーダルなセマンティック埋め込み空間を学習するトリモーダルモデルを提案する。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
関連論文リスト
- Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。