論文の概要: Learning in Audio-visual Context: A Review, Analysis, and New
Perspective
- arxiv url: http://arxiv.org/abs/2208.09579v1
- Date: Sat, 20 Aug 2022 02:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:24:21.770647
- Title: Learning in Audio-visual Context: A Review, Analysis, and New
Perspective
- Title(参考訳): 視覚環境における学習 : レビュー,分析,新たな展望
- Authors: Yake Wei, Di Hu, Yapeng Tian, Xuelong Li
- Abstract要約: 本調査は,聴覚・視覚領域の研究を体系的に整理し,分析することを目的とする。
計算研究に影響を与えた重要な発見をいくつか紹介する。
本稿では,音声視覚シーン理解の新しい視点を提案するとともに,音声視覚学習領域の今後の可能性について論じ,分析する。
- 参考スコア(独自算出の注目度): 88.40519011197144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sight and hearing are two senses that play a vital role in human
communication and scene understanding. To mimic human perception ability,
audio-visual learning, aimed at developing computational approaches to learn
from both audio and visual modalities, has been a flourishing field in recent
years. A comprehensive survey that can systematically organize and analyze
studies of the audio-visual field is expected. Starting from the analysis of
audio-visual cognition foundations, we introduce several key findings that have
inspired our computational studies. Then, we systematically review the recent
audio-visual learning studies and divide them into three categories:
audio-visual boosting, cross-modal perception and audio-visual collaboration.
Through our analysis, we discover that, the consistency of audio-visual data
across semantic, spatial and temporal support the above studies. To revisit the
current development of the audio-visual learning field from a more macro view,
we further propose a new perspective on audio-visual scene understanding, then
discuss and analyze the feasible future direction of the audio-visual learning
area. Overall, this survey reviews and outlooks the current audio-visual
learning field from different aspects. We hope it can provide researchers with
a better understanding of this area. A website including constantly-updated
survey is released: \url{https://gewu-lab.github.io/audio-visual-learning/}.
- Abstract(参考訳): 視線と聴覚は、人間のコミュニケーションとシーン理解において重要な役割を果たす2つの感覚である。
近年,人間の知覚能力の模倣として,音声と視覚の両面から学習する計算手法の開発をめざした視覚学習が盛んに行われている。
視聴覚分野の研究を体系的に整理・分析できる総合的な調査が期待される。
音声・視覚認知基盤の分析から始め,我々の計算研究に影響を与えた重要な発見をいくつか紹介する。
次に,近年の音声・視覚学習研究を体系的にレビューし,これらを3つのカテゴリに分けた。
そこで本研究では,音声・視覚データのセマンティック,空間的,時間的支援の整合性について検討した。
よりマクロな視点から、音声視覚学習分野の現況を振り返り、さらに、音声視覚シーン理解の新しい視点を提案し、さらに、音声視覚学習領域の将来的な方向性について論じ、分析する。
概して、この調査は、現在のオーディオとビジュアルの学習分野を異なる側面からレビューし、展望する。
研究者にこの領域をより深く理解してもらいたい。
常に更新される調査を含むwebサイトがリリースされた。 \url{https://gewu-lab.github.io/audio-visual-learning/}。
関連論文リスト
- A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning [6.595840767689357]
音声と視覚の相関学習は、音声と視覚データの間の自然現象を捉え、理解することを目的としている。
ディープラーニングの急速な成長は、オーディオ視覚データを処理する提案の開発を促した。
本稿では,近年の音声・視覚相関学習の進歩を要約し,今後の研究方向性について考察する。
論文 参考訳(メタデータ) (2024-11-24T03:26:34Z) - Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective [12.178918299455898]
本稿では,異なるモーダル間の情報交差に着目し,情報理論に基づく定量的解析を行う。
この分析は,音声・視覚処理タスクの難易度や,モダリティ統合によって得られるメリットを理解する上で有用であることを示す。
論文 参考訳(メタデータ) (2024-09-29T06:30:46Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。