論文の概要: Recent Advances and Challenges in Deep Audio-Visual Correlation Learning
- arxiv url: http://arxiv.org/abs/2202.13673v1
- Date: Mon, 28 Feb 2022 10:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 02:25:28.544129
- Title: Recent Advances and Challenges in Deep Audio-Visual Correlation Learning
- Title(参考訳): 音声・視覚相関学習の最近の進歩と課題
- Authors: Lu\'is Vila\c{c}a, Yi Yu and Paula Viana
- Abstract要約: 本稿では,音声と映像の相関関係の学習に使用される最新技術(SOTA)モデルに焦点を当てる。
また、AIマルチメディアに適用された定義とパラダイムのタスクについても論じる。
- 参考スコア(独自算出の注目度): 7.273353828127817
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio-visual correlation learning aims to capture essential correspondences
and understand natural phenomena between audio and video. With the rapid growth
of deep learning, an increasing amount of attention has been paid to this
emerging research issue. Through the past few years, various methods and
datasets have been proposed for audio-visual correlation learning, which
motivate us to conclude a comprehensive survey. This survey paper focuses on
state-of-the-art (SOTA) models used to learn correlations between audio and
video, but also discusses some tasks of definition and paradigm applied in AI
multimedia. In addition, we investigate some objective functions frequently
used for optimizing audio-visual correlation learning models and discuss how
audio-visual data is exploited in the optimization process. Most importantly,
we provide an extensive comparison and summarization of the recent progress of
SOTA audio-visual correlation learning and discuss future research directions.
- Abstract(参考訳): 音声と視覚の相関学習は,音声と映像の自然な現象を捉えることを目的としている。
ディープラーニングの急速な成長に伴い、この新たな研究課題に注目が集まっている。
過去数年間にわたり,音声と視覚の相関学習のための様々な手法やデータセットが提案されてきた。
本稿では,音声と映像の相関関係を学習するために使用される最新技術(SOTA)モデルに焦点をあてるとともに,AIマルチメディアに適用される定義やパラダイムの課題についても論じる。
また,視聴覚相関学習モデルの最適化に多用される目的関数について検討し,最適化過程における視聴覚データの活用方法について考察する。
最も重要なことは、SOTA音声-視覚相関学習の最近の進歩を広範囲に比較し、要約し、今後の研究方向性について議論することである。
関連論文リスト
- Meta-Learning in Audio and Speech Processing: An End to End Comprehensive Review [0.0]
本稿では,音声処理におけるメタラーニング手法の体系的レビューを行う。
これには、データ拡張、特徴抽出、前処理技術、メタラーナー、タスク選択戦略に関するオーディオ固有の議論が含まれる。
我々は,メタラーニングとオーディオ処理の交差点において,貴重な洞察を提供し,今後の研究方向を特定することを目的としている。
論文 参考訳(メタデータ) (2024-08-19T18:11:59Z) - Sequential Contrastive Audio-Visual Learning [12.848371604063168]
逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる検索実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングしたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率-精度トレードオフのスペクトル上で動作可能であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Learning in Audio-visual Context: A Review, Analysis, and New
Perspective [88.40519011197144]
本調査は,聴覚・視覚領域の研究を体系的に整理し,分析することを目的とする。
計算研究に影響を与えた重要な発見をいくつか紹介する。
本稿では,音声視覚シーン理解の新しい視点を提案するとともに,音声視覚学習領域の今後の可能性について論じ,分析する。
論文 参考訳(メタデータ) (2022-08-20T02:15:44Z) - Multi-Modal Multi-Correlation Learning for Audio-Visual Speech
Separation [38.75352529988137]
音声・視覚的音声分離作業を対象としたマルチモーダル・マルチ相関学習フレームワークを提案する。
我々は,(1)識別相関(音色と顔の属性間の相関),(2)音声相関という2つの重要な相関関係を定義した。
この2つの相関関係を最大化するために,コントラスト学習法や逆学習法を適用した。
論文 参考訳(メタデータ) (2022-07-04T04:53:39Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。