論文の概要: Video-Guided Curriculum Learning for Spoken Video Grounding
- arxiv url: http://arxiv.org/abs/2209.00277v1
- Date: Thu, 1 Sep 2022 07:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:32:41.947387
- Title: Video-Guided Curriculum Learning for Spoken Video Grounding
- Title(参考訳): 音声ビデオグラウンドニングのためのビデオガイド型カリキュラム学習
- Authors: Yan Xia, Zhou Zhao, Shangwei Ye, Yang Zhao, Haoyuan Li, Yi Ren
- Abstract要約: 音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
- 参考スコア(独自算出の注目度): 65.49979202728167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new task, spoken video grounding (SVG), which
aims to localize the desired video fragments from spoken language descriptions.
Compared with using text, employing audio requires the model to directly
exploit the useful phonemes and syllables related to the video from raw speech.
Moreover, we randomly add environmental noises to this speech audio, further
increasing the difficulty of this task and better simulating real applications.
To rectify the discriminative phonemes and extract video-related information
from noisy audio, we develop a novel video-guided curriculum learning (VGCL)
during the audio pre-training process, which can make use of the vital visual
perceptions to help understand the spoken language and suppress the external
noise. Considering during inference the model can not obtain ground truth video
segments, we design a curriculum strategy that gradually shifts the input video
from the ground truth to the entire video content during pre-training. Finally,
the model can learn how to extract critical visual information from the entire
video clip to help understand the spoken language. In addition, we collect the
first large-scale spoken video grounding dataset based on ActivityNet, which is
named as ActivityNet Speech dataset. Extensive experiments demonstrate our
proposed video-guided curriculum learning can facilitate the pre-training
process to obtain a mutual audio encoder, significantly promoting the
performance of spoken video grounding tasks. Moreover, we prove that in the
case of noisy sound, our model outperforms the method that grounding video with
ASR transcripts, further demonstrating the effectiveness of our curriculum
strategy.
- Abstract(参考訳): 本稿では,音声言語記述から所望のビデオフラグメントをローカライズすることを目的とした,svg(stalkd video grounding)という新しいタスクを提案する。
テキストを使用する場合と比較して、音声を使用するには、生の音声からビデオに関連する有用な音素や音節を直接活用する必要がある。
さらに,この音声音声に無作為な環境雑音を付加することで,作業の難易度を高め,実環境をシミュレートする。
識別音素を修正し、ノイズの多い音声から映像関連情報を抽出するために、音声事前学習過程において、音声言語を理解して外部雑音を抑制するために重要な視覚的知覚を利用する新しいビデオ誘導カリキュラム学習(VGCL)を開発する。
提案手法は,提案モデルでは基礎的真理ビデオセグメントが得られないため,基礎的真理ビデオから事前学習中の全映像コンテンツへ段階的に変換するカリキュラム戦略を設計する。
最後に、モデルはビデオクリップ全体から重要な視覚情報を抽出する方法を学び、話し言葉を理解するのに役立つ。
また, activitynet 音声データセットと名づけられた activitynet をベースに,最初の大規模音声ビデオ接地データセットを収集した。
提案するビデオガイド型カリキュラム学習は, 相互音声エンコーダ獲得のための事前学習プロセスを容易にし, 音声映像接地作業の性能を著しく向上させる。
また, 雑音音の場合, 提案手法はasr転写物による映像の接地手法よりも優れており, カリキュラム戦略の有効性も実証している。
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。