論文の概要: Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2409.19575v1
- Date: Sun, 29 Sep 2024 06:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:47.006188
- Title: Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective
- Title(参考訳): 音声視覚課題の定量的分析 : 情報理論の視点から
- Authors: Chen Chen, Xiaolou Li, Zehua Liu, Lantian Li, Dong Wang,
- Abstract要約: 本稿では,異なるモーダル間の情報交差に着目し,情報理論に基づく定量的解析を行う。
この分析は,音声・視覚処理タスクの難易度や,モダリティ統合によって得られるメリットを理解する上で有用であることを示す。
- 参考スコア(独自算出の注目度): 12.178918299455898
- License:
- Abstract: In the field of spoken language processing, audio-visual speech processing is receiving increasing research attention. Key components of this research include tasks such as lip reading, audio-visual speech recognition, and visual-to-speech synthesis. Although significant success has been achieved, theoretical analysis is still insufficient for audio-visual tasks. This paper presents a quantitative analysis based on information theory, focusing on information intersection between different modalities. Our results show that this analysis is valuable for understanding the difficulties of audio-visual processing tasks as well as the benefits that could be obtained by modality integration.
- Abstract(参考訳): 音声言語処理の分野では、音声・視覚音声処理が研究の注目を集めている。
本研究の主な構成要素は, 唇読解, 音声・視覚音声認識, 音声合成などである。
かなりの成功を収めたものの、理論的解析は未だに音声・視覚のタスクには不十分である。
本稿では,異なるモーダル間の情報交差に着目し,情報理論に基づく定量的解析を行う。
この分析は,音声・視覚処理タスクの難易度や,モダリティ統合によって得られるメリットを理解する上で有用であることを示す。
関連論文リスト
- Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction [13.5641621193917]
音声・視覚的対象音声抽出タスクでは、音声モダリティが支配的になりがちであり、視覚誘導の重要性を覆す可能性がある。
提案手法は,音声・視覚的対象音声抽出タスクを,音声知覚と音声生成の2段階に分割する。
生成した音声によって伝達される意味情報が、唇の動きによって伝達される意味情報と一致することを保証するために、対照的な意味マッチング損失を導入する。
論文 参考訳(メタデータ) (2024-04-19T09:08:44Z) - Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Learning in Audio-visual Context: A Review, Analysis, and New
Perspective [88.40519011197144]
本調査は,聴覚・視覚領域の研究を体系的に整理し,分析することを目的とする。
計算研究に影響を与えた重要な発見をいくつか紹介する。
本稿では,音声視覚シーン理解の新しい視点を提案するとともに,音声視覚学習領域の今後の可能性について論じ,分析する。
論文 参考訳(メタデータ) (2022-08-20T02:15:44Z) - E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches [57.279044079196105]
E-ffective(エフェクティブ)は、音声の専門家や初心者が、音声要因の役割と効果的な音声への貢献の両方を分析することのできる視覚分析システムである。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化技術がある。
論文 参考訳(メタデータ) (2021-10-28T06:14:27Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。