論文の概要: Themes Informed Audio-visual Correspondence Learning
- arxiv url: http://arxiv.org/abs/2009.06573v2
- Date: Mon, 19 Oct 2020 06:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 11:49:48.004967
- Title: Themes Informed Audio-visual Correspondence Learning
- Title(参考訳): テーマインフォームドオーディオ視覚対応学習
- Authors: Runze Su, Fei Tao, Xudong Liu, Haoran Wei, Xiaorong Mei, Zhiyao Duan,
Lei Yuan, Ji Liu, Yuying Xie
- Abstract要約: SnapchatやYoutubeのような短期ユーザー生成ビデオ(UGV)は最近ブームとなり、多くの機械学習タスクが生まれている。
中でも、ビデオから音声と視覚情報の対応を学習することは難しい。
従来の音声-視覚対応学習(AVC)では、制約付きビデオや単純な設定しか研究されておらず、UGVの応用には適していない可能性がある。
- 参考スコア(独自算出の注目度): 37.33758032988154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The applications of short-term user-generated video (UGV), such as Snapchat,
and Youtube short-term videos, booms recently, raising lots of multimodal
machine learning tasks. Among them, learning the correspondence between audio
and visual information from videos is a challenging one. Most previous work of
the audio-visual correspondence(AVC) learning only investigated constrained
videos or simple settings, which may not fit the application of UGV. In this
paper, we proposed new principles for AVC and introduced a new framework to set
sight of videos' themes to facilitate AVC learning. We also released the
KWAI-AD-AudVis corpus which contained 85432 short advertisement videos (around
913 hours) made by users. We evaluated our proposed approach on this corpus,
and it was able to outperform the baseline by 23.15% absolute difference.
- Abstract(参考訳): SnapchatやYoutubeのような短期ユーザー生成ビデオ(UGV)の応用は最近ブームとなり、多くのマルチモーダル機械学習タスクが生まれている。
中でも,映像から音声情報と視覚情報との対応を学習することは難しい課題である。
従来の音声-視覚対応学習(AVC)では、制約付きビデオや単純な設定しか研究されておらず、UGVの応用には適していない可能性がある。
本稿では,avcの新しい原則を提案し,ビデオのテーマに着目し,avc学習を容易にするための新しいフレームワークを提案する。
kwai-ad-audvisコーパスもリリースしました。このコーパスには85432本の短い広告ビデオ(約913時間)が含まれています。
このコーパスに対する提案したアプローチを評価し,23.15%の絶対差でベースラインを上回りました。
関連論文リスト
- SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。
AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。
実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文 参考訳(メタデータ) (2024-11-25T09:22:13Z) - FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts [23.6178079869457]
本稿では,講義ビデオにおける視覚情報と聴覚情報の両方を考慮した映像要約手法であるFastPersonを提案する。
FastPersonは、音声の書き起こしと画面上の画像とテキストを利用して要約ビデオを作成する。
従来のビデオ再生方式と同じレベルの理解度で視聴時間を53%短縮する。
論文 参考訳(メタデータ) (2024-03-26T14:16:56Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。