論文の概要: Deep Audio-Visual Learning: A Survey
- arxiv url: http://arxiv.org/abs/2001.04758v1
- Date: Tue, 14 Jan 2020 13:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:53:37.876863
- Title: Deep Audio-Visual Learning: A Survey
- Title(参考訳): ディープ・オーディオ・ビジュアル・ラーニング:サーベイ
- Authors: Hao Zhu, Mandi Luo, Rui Wang, Aihua Zheng, and Ran He
- Abstract要約: 現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
- 参考スコア(独自算出の注目度): 53.487938108404244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual learning, aimed at exploiting the relationship between audio and
visual modalities, has drawn considerable attention since deep learning started
to be used successfully. Researchers tend to leverage these two modalities
either to improve the performance of previously considered single-modality
tasks or to address new challenging problems. In this paper, we provide a
comprehensive survey of recent audio-visual learning development. We divide the
current audio-visual learning tasks into four different subfields: audio-visual
separation and localization, audio-visual correspondence learning, audio-visual
generation, and audio-visual representation learning. State-of-the-art methods
as well as the remaining challenges of each subfield are further discussed.
Finally, we summarize the commonly used datasets and performance metrics.
- Abstract(参考訳): 音声と視覚のモーダリティを活用しようとする音声-視覚学習は,ディープラーニングが普及して以降,かなりの注目を集めている。
研究者はこれらの2つのモダリティを活用して、以前は考慮されていた単一モダリティタスクのパフォーマンスを向上させるか、あるいは新たな課題に対処する傾向がある。
本稿では,近年の音声視覚学習開発に関する包括的調査を行う。
現在の視聴覚学習タスクを,視聴覚分離とローカライゼーション,視聴覚対応学習,視聴覚生成,視聴覚表現学習の4つのサブフィールドに分割した。
各サブフィールドにおける現状の手法と残りの課題をさらに議論する。
最後に、よく使われるデータセットとパフォーマンスメトリクスをまとめます。
関連論文リスト
- Meta-Learning in Audio and Speech Processing: An End to End Comprehensive Review [0.0]
本稿では,音声処理におけるメタラーニング手法の体系的レビューを行う。
これには、データ拡張、特徴抽出、前処理技術、メタラーナー、タスク選択戦略に関するオーディオ固有の議論が含まれる。
我々は,メタラーニングとオーディオ処理の交差点において,貴重な洞察を提供し,今後の研究方向を特定することを目的としている。
論文 参考訳(メタデータ) (2024-08-19T18:11:59Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Learning in Audio-visual Context: A Review, Analysis, and New
Perspective [88.40519011197144]
本調査は,聴覚・視覚領域の研究を体系的に整理し,分析することを目的とする。
計算研究に影響を与えた重要な発見をいくつか紹介する。
本稿では,音声視覚シーン理解の新しい視点を提案するとともに,音声視覚学習領域の今後の可能性について論じ,分析する。
論文 参考訳(メタデータ) (2022-08-20T02:15:44Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。