論文の概要: ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024
- arxiv url: http://arxiv.org/abs/2407.12038v2
- Date: Wed, 31 Jul 2024 14:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:55:28.181508
- Title: ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024
- Title(参考訳): ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024
- Authors: Ruibo Fu, Rui Liu, Chunyu Qiang, Yingming Gao, Yi Lu, Shuchen Shi, Tao Wang, Ya Li, Zhengqi Wen, Chen Zhang, Hui Bu, Yukun Liu, Xin Qi, Guanjun Li,
- Abstract要約: TheICAGC 2024 Challengeは、合成音声の説得性と受容性を高めることを目的としている。
本論文では,19チームが参加登録を行い,競技結果と競技結果について述べる。
- 参考スコア(独自算出の注目度): 32.96984318966757
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC 2024) is part of the ISCSLP 2024 Competitions and Challenges track. While current text-to-speech (TTS) technology can generate high-quality audio, its ability to convey complex emotions and controlled detail content remains limited. This constraint leads to a discrepancy between the generated audio and human subjective perception in practical applications like companion robots for children and marketing bots. The core issue lies in the inconsistency between high-quality audio generation and the ultimate human subjective experience. Therefore, this challenge aims to enhance the persuasiveness and acceptability of synthesized audio, focusing on human alignment convincing and inspirational audio generation. A total of 19 teams have registered for the challenge, and the results of the competition and the competition are described in this paper.
- Abstract(参考訳): ICAGC 2024(Inspirational and Convincing Audio Generation Challenge 2024)は、ISCSLP 2024コンペティション・アンド・チャレンジ・トラックの1つである。
現在のTTS(text-to-speech)技術は高品質な音声を生成することができるが、複雑な感情と制御された詳細コンテンツを伝える能力は依然として限られている。
この制約は、子供向けの共用ロボットやマーケティングボットといった実践的な応用において、生成された音声と人間の主観的知覚との間に相違をもたらす。
問題は、高品質なオーディオ生成と究極の人間の主観的体験の矛盾にある。
そこで本課題は、人間のアライメントの説得力とインスピレーションによる音声生成に焦点を当て、合成音声の説得性と受容性を高めることを目的とする。
本論文では,19チームが参加登録を行い,競技結果と競技結果について述べる。
関連論文リスト
- SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge Evaluation Plan [44.260755521474735]
SVDDチャレンジ(SVDD Challenge)は、実験室でコントロールされたカナマイドとディープフェイクの歌声録音のためのSVDDに焦点を当てた最初の研究課題である。
この課題は、2024年のIEEE Spoken Language Technology Workshop (SLT 2024)と共同で行われる。
論文 参考訳(メタデータ) (2024-05-08T17:40:12Z) - Innovative Digital Storytelling with AIGC: Exploration and Discussion of
Recent Advances [27.1985024581788]
デジタルストーリーテリングは、アート形式として、コストと品質のバランスに苦戦している。
AIGC(AI- generated Content)の出現は、効率的なデジタルストーリーテリング生産の潜在的な解決策と考えられている。
この融合の具体的な形態、効果、影響は未だ不明であり、AIGCの境界とストーリーテリングの境界は未定義のままである。
論文 参考訳(メタデータ) (2023-09-25T17:54:29Z) - An End-to-End Multi-Module Audio Deepfake Generation System for ADD
Challenge 2023 [11.723802799620495]
本稿では、話者エンコーダ、Tacotron2に基づくシンセサイザ、WaveRNNに基づくボコーダを含む、エンドツーエンドのマルチモジュール合成音声生成モデルを構築する。
ADD 2023のトラック1.1で、44.97%の重み付き偽装成功率(WDSR)で優勝した。
論文 参考訳(メタデータ) (2023-07-03T03:21:23Z) - STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced
Audio-Visual Diarization [3.9886149789339327]
本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。
キーとなるイノベーションは、単一の、統一された異種グラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。
最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-06-18T17:55:02Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge [95.6159736804855]
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。
この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
論文 参考訳(メタデータ) (2023-02-20T19:27:14Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge [99.82500204110015]
第2回「VoxCeleb Speaker Recognition Challenge」をInterspeech 2020と共に開催しました。
この課題の目的は、現在のスピーカー認識技術が、制約のないデータまたは野生のデータでスピーカーをダイアライズして認識できるかどうかを評価することでした。
本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。
論文 参考訳(メタデータ) (2020-12-12T17:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。