論文の概要: ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024
- arxiv url: http://arxiv.org/abs/2407.12038v1
- Date: Mon, 1 Jul 2024 13:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:20:27.660459
- Title: ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024
- Title(参考訳): ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024
- Authors: Ruibo Fu, Rui Liu, Chunyu Qiang, Yingming Gao, Yi Lu, Tao Wang, Ya Li, Zhengqi Wen, Chen Zhang, Hui Bu, Yukun Liu, Shuchen Shi, Xin Qi, Guanjun Li,
- Abstract要約: この課題は、合成音声の説得性と受容性を高めることを目的としている。
ICAGC 2024はISCSLP 2024コンペティション・アンド・チャレンジ・トラックの一部である。
- 参考スコア(独自算出の注目度): 32.96984318966757
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC 2024) is part of the ISCSLP 2024 Competitions and Challenges track. While current text-to-speech (TTS) technology can generate high-quality audio, its ability to convey complex emotions and controlled detail content remains limited. This constraint leads to a discrepancy between the generated audio and human subjective perception in practical applications like companion robots for children and marketing bots. The core issue lies in the inconsistency between high-quality audio generation and the ultimate human subjective experience. Therefore, this challenge aims to enhance the persuasiveness and acceptability of synthesized audio, focusing on human alignment convincing and inspirational audio generation.
- Abstract(参考訳): ICAGC 2024(Inspirational and Convincing Audio Generation Challenge 2024)は、ISCSLP 2024コンペティション・アンド・チャレンジ・トラックの1つである。
現在のTTS(text-to-speech)技術は高品質な音声を生成することができるが、複雑な感情と制御された詳細コンテンツを伝える能力は依然として限られている。
この制約は、子供向けの共用ロボットやマーケティングボットといった実践的な応用において、生成された音声と人間の主観的知覚との間に相違をもたらす。
問題は、高品質なオーディオ生成と究極の人間の主観的体験の矛盾にある。
そこで本課題は、人間のアライメントの説得力とインスピレーションによる音声生成に焦点を当て、合成音声の説得性と受容性を高めることを目的とする。
関連論文リスト
- The ISCSLP 2024 Conversational Voice Clone (CoVoC) Challenge: Tasks, Results and Findings [18.994388357437924]
ISCSLP 2024 Conversational Voice Clone (CoVoC) Challengeは、ゼロショット発声音声クローンのベンチマークと進歩を目的としている。
本稿では,データ,トラック,提案システム,評価結果,結果について述べる。
論文 参考訳(メタデータ) (2024-10-31T09:39:49Z) - Overview of AI-Debater 2023: The Challenges of Argument Generation Tasks [62.443665295250035]
第2023回中国影響コンピューティング会議(CCAC 2023)におけるAI-Debater 2023チャレンジの結果を提示する。
合計で32のチームがチャレンジに登録し、そこから11の応募をもらいました。
論文 参考訳(メタデータ) (2024-07-20T10:13:54Z) - SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge Evaluation Plan [44.260755521474735]
SVDDチャレンジ(SVDD Challenge)は、実験室でコントロールされたカナマイドとディープフェイクの歌声録音のためのSVDDに焦点を当てた最初の研究課題である。
この課題は、2024年のIEEE Spoken Language Technology Workshop (SLT 2024)と共同で行われる。
論文 参考訳(メタデータ) (2024-05-08T17:40:12Z) - NTIRE 2024 Quality Assessment of AI-Generated Content Challenge [141.37864527005226]
課題は、イメージトラックとビデオトラックに分けられる。
両トラックの勝利法はAIGCの予測性能に優れていた。
論文 参考訳(メタデータ) (2024-04-25T15:36:18Z) - STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced
Audio-Visual Diarization [3.9886149789339327]
本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。
キーとなるイノベーションは、単一の、統一された異種グラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。
最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-06-18T17:55:02Z) - Team AcieLee: Technical Report for EPIC-SOUNDS Audio-Based Interaction
Recognition Challenge 2023 [8.699868810184752]
タスクは、オブジェクト間の相互作用やカメラ装着者のイベントによって引き起こされるオーディオを分類することである。
その結果, 学習速度の低下, 背骨凍結, ラベルの平滑化, 焦点損失は, 性能改善に大きく寄与することがわかった。
提案手法により,EPIC-SOUNDS音声ベースインタラクション認識チャレンジのCVPR 2023ワークショップにおいて,第3位を達成できた。
論文 参考訳(メタデータ) (2023-06-15T09:49:07Z) - VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge [95.6159736804855]
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。
この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
論文 参考訳(メタデータ) (2023-02-20T19:27:14Z) - NTIRE 2022 Challenge on Stereo Image Super-Resolution: Methods and
Results [116.8625268729599]
NTIREの課題は、標準的なバイコビック劣化下でのステレオ画像超解像問題を目的とした1トラックである。
合計238人の参加者が登録され、21チームが最終テストフェーズに出場した。
この課題はステレオ画像SRの新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2022-04-20T02:55:37Z) - VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge [99.82500204110015]
第2回「VoxCeleb Speaker Recognition Challenge」をInterspeech 2020と共に開催しました。
この課題の目的は、現在のスピーカー認識技術が、制約のないデータまたは野生のデータでスピーカーをダイアライズして認識できるかどうかを評価することでした。
本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。
論文 参考訳(メタデータ) (2020-12-12T17:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。