論文の概要: A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning
- arxiv url: http://arxiv.org/abs/2412.00049v1
- Date: Sun, 24 Nov 2024 03:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:47:20.742228
- Title: A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning
- Title(参考訳): ディープ・オーディオ・ビジュアル・相関学習の最近の進歩と課題
- Authors: Luis Vilaca, Yi Yu, Paula Vinan,
- Abstract要約: 音声と視覚の相関学習は、音声と視覚データの間の自然現象を捉え、理解することを目的としている。
ディープラーニングの急速な成長は、オーディオ視覚データを処理する提案の開発を促した。
本稿では,近年の音声・視覚相関学習の進歩を要約し,今後の研究方向性について考察する。
- 参考スコア(独自算出の注目度): 6.595840767689357
- License:
- Abstract: Audio-visual correlation learning aims to capture and understand natural phenomena between audio and visual data. The rapid growth of Deep Learning propelled the development of proposals that process audio-visual data and can be observed in the number of proposals in the past years. Thus encouraging the development of a comprehensive survey. Besides analyzing the models used in this context, we also discuss some tasks of definition and paradigm applied in AI multimedia. In addition, we investigate objective functions frequently used and discuss how audio-visual data is exploited in the optimization process, i.e., the different methodologies for representing knowledge in the audio-visual domain. In fact, we focus on how human-understandable mechanisms, i.e., structured knowledge that reflects comprehensible knowledge, can guide the learning process. Most importantly, we provide a summarization of the recent progress of Audio-Visual Correlation Learning (AVCL) and discuss the future research directions.
- Abstract(参考訳): 音声と視覚の相関学習は、音声と視覚データの間の自然現象を捉え、理解することを目的としている。
ディープラーニングの急速な成長は、オーディオ視覚データを処理し、過去数年間の多くの提案で観察できる提案の開発を促した。
包括的調査の開発を奨励する。
この文脈で使用されるモデルの解析に加えて、AIマルチメディアに適用される定義やパラダイムのタスクについても論じる。
さらに,音声視覚領域における知識を表現するための異なる手法である最適化プロセスにおいて,音声視覚データがどのように活用されるかを検討する。
実際、人間の理解可能なメカニズム、すなわち理解可能な知識を反映した構造化知識が、学習プロセスをどのように導くかに焦点を当てている。
最も重要なことは,オーディオ・ビジュアル・相関学習(AVCL)の最近の進歩を要約し,今後の研究方向性について議論することである。
関連論文リスト
- Meta-Learning in Audio and Speech Processing: An End to End Comprehensive Review [0.0]
本稿では,音声処理におけるメタラーニング手法の体系的レビューを行う。
これには、データ拡張、特徴抽出、前処理技術、メタラーナー、タスク選択戦略に関するオーディオ固有の議論が含まれる。
我々は,メタラーニングとオーディオ処理の交差点において,貴重な洞察を提供し,今後の研究方向を特定することを目的としている。
論文 参考訳(メタデータ) (2024-08-19T18:11:59Z) - Learning in Audio-visual Context: A Review, Analysis, and New
Perspective [88.40519011197144]
本調査は,聴覚・視覚領域の研究を体系的に整理し,分析することを目的とする。
計算研究に影響を与えた重要な発見をいくつか紹介する。
本稿では,音声視覚シーン理解の新しい視点を提案するとともに,音声視覚学習領域の今後の可能性について論じ,分析する。
論文 参考訳(メタデータ) (2022-08-20T02:15:44Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Recent Advances and Challenges in Deep Audio-Visual Correlation Learning [7.273353828127817]
本稿では,音声と映像の相関関係の学習に使用される最新技術(SOTA)モデルに焦点を当てる。
また、AIマルチメディアに適用された定義とパラダイムのタスクについても論じる。
論文 参考訳(メタデータ) (2022-02-28T10:43:01Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。