論文の概要: The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments
- arxiv url: http://arxiv.org/abs/2406.09494v1
- Date: Thu, 13 Jun 2024 17:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:34:26.670162
- Title: The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments
- Title(参考訳): 第2回DisPLACEチャレンジ : 会話環境におけるSPeakerとLanguageのダイアリゼーション
- Authors: Shareef Babu Kalluri, Prachi Singh, Pratik Roy Chowdhuri, Apoorva Kulkarni, Shikha Baghel, Pradyoth Hegde, Swapnil Sontakke, Deepak K T, S. R. Mahadeva Prasanna, Deepu Vijayasenan, Sriram Ganapathy,
- Abstract要約: データセットには158時間の音声が含まれており、教師なしと教師なしの両方の単一チャネルの遠距離記録で構成されている。
インドの5言語で実施されたASRトラックでは,12時間の近接場単チャンネル記録が提供された。
我々は,この第2版における課題の進展を強調するために,私たちのベースラインモデルとdisPLACE-2023の評価データに基づくチームのパフォーマンスを比較した。
- 参考スコア(独自算出の注目度): 28.460119283649913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The DIarization of SPeaker and LAnguage in Conversational Environments (DISPLACE) 2024 challenge is the second in the series of DISPLACE challenges, which involves tasks of speaker diarization (SD) and language diarization (LD) on a challenging multilingual conversational speech dataset. In the DISPLACE 2024 challenge, we also introduced the task of automatic speech recognition (ASR) on this dataset. The dataset containing 158 hours of speech, consisting of both supervised and unsupervised mono-channel far-field recordings, was released for LD and SD tracks. Further, 12 hours of close-field mono-channel recordings were provided for the ASR track conducted on 5 Indian languages. The details of the dataset, baseline systems and the leader board results are highlighted in this paper. We have also compared our baseline models and the team's performances on evaluation data of DISPLACE-2023 to emphasize the advancements made in this second version of the challenge.
- Abstract(参考訳): SPeaker と LAnguage in Conversational Environments (DISPLACE) 2024 Challenge は、話者ダイアリゼーション (SD) と言語ダイアリゼーション (LD) のタスクを含む一連の DisPLACE 課題の第2弾である。
DISPLACE 2024チャレンジでは、このデータセット上で自動音声認識(ASR)タスクも導入した。
158時間の音声を含むデータセットは、LDトラックとSDトラック用にリリースされた。
さらに、インド語5言語で実施されたASRトラックに対して、12時間の近接場単チャンネル記録が提供された。
本論文では,データセット,ベースラインシステム,およびリーダボードの結果の詳細について概説する。
また,この第2版における課題の進展を強調するために,D DISPLACE-2023の評価データに基づくベースラインモデルとチームのパフォーマンスを比較した。
関連論文リスト
- The ISCSLP 2024 Conversational Voice Clone (CoVoC) Challenge: Tasks, Results and Findings [18.994388357437924]
ISCSLP 2024 Conversational Voice Clone (CoVoC) Challengeは、ゼロショット発声音声クローンのベンチマークと進歩を目的としている。
本稿では,データ,トラック,提案システム,評価結果,結果について述べる。
論文 参考訳(メタデータ) (2024-10-31T09:39:49Z) - TCG CREST System Description for the Second DISPLACE Challenge [19.387615374726444]
2024年の第2回DisPLACEチャレンジのために,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。
コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。
論文 参考訳(メタデータ) (2024-09-16T05:13:34Z) - Overview of AI-Debater 2023: The Challenges of Argument Generation Tasks [62.443665295250035]
第2023回中国影響コンピューティング会議(CCAC 2023)におけるAI-Debater 2023チャレンジの結果を提示する。
合計で32のチームがチャレンジに登録し、そこから11の応募をもらいました。
論文 参考訳(メタデータ) (2024-07-20T10:13:54Z) - System Description for the Displace Speaker Diarization Challenge 2023 [0.0]
本稿では,会話環境問題における話者と言語のダイアリゼーションの解決策について述べる(2023年)。
音声によるセグメンション発見にはVAD,これらのセグメントからの特徴抽出にはResnetアーキテクチャをベースとしたCNN,特徴クラスタリングにはスペクトルクラスタリングを併用した。
論文 参考訳(メタデータ) (2024-06-20T21:40:02Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and
LAnguage in Conversational Environments [28.618333018398122]
複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話は言語が混在することが多い。
既存の音声技術は、音声データが複数の言語や話者との多様性に富んでいるような会話から情報を抽出するのに非効率である可能性がある。
DISPLACEチャレンジは、この挑戦的な状況下で話者と言語ダイアリゼーション技術の評価とベンチマークを行うためのオープンコールを構成する。
論文 参考訳(メタデータ) (2023-11-21T12:23:58Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge [95.6159736804855]
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。
この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
論文 参考訳(メタデータ) (2023-02-20T19:27:14Z) - "This is Houston. Say again, please". The Behavox system for the
Apollo-11 Fearless Steps Challenge (phase II) [3.3263205689999453]
音声活動検出(SAD)、話者ダイアリゼーション(SD)、およびBehavoxチームによるFearless Steps Challenge(FSC-2)のための自動音声認識(ASR)実験について述べる。
比較的少量のラベル付きデータ、多様な話者とチャネル歪み、特定の語彙と話し方により、このデータを含むシステムではエラー率が高くなった。
全システムについて,FSC-2ベースラインシステムと比較して大幅に性能が向上したことを報告した。
論文 参考訳(メタデータ) (2020-08-04T13:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。