Fugu-MT 論文翻訳(概要): Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and LAnguage in Conversational Environments

論文の概要: Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and LAnguage in Conversational Environments

arxiv url: http://arxiv.org/abs/2311.12564v2
Date: Thu, 23 Nov 2023 07:57:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 02:02:26.429212
Title: Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and LAnguage in Conversational Environments
Title（参考訳）: DisPLACE Challenge 2023の概要 -- 会話環境におけるSPeakerとLanguageのダイアリゼーション
Authors: Shikha Baghel, Shreyas Ramoji, Somil Jain, Pratik Roy Chowdhuri, Prachi Singh, Deepu Vijayasenan, Sriram Ganapathy
Abstract要約: 複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話は言語が混在することが多い。既存の音声技術は、音声データが複数の言語や話者との多様性に富んでいるような会話から情報を抽出するのに非効率である可能性がある。 DISPLACEチャレンジは、この挑戦的な状況下で話者と言語ダイアリゼーション技術の評価とベンチマークを行うためのオープンコールを構成する。
参考スコア（独自算出の注目度）: 28.618333018398122
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In multi-lingual societies, where multiple languages are spoken in a small geographic vicinity, informal conversations often involve mix of languages. Existing speech technologies may be inefficient in extracting information from such conversations, where the speech data is rich in diversity with multiple languages and speakers. The DISPLACE (DIarization of SPeaker and LAnguage in Conversational Environments) challenge constitutes an open-call for evaluating and bench-marking the speaker and language diarization technologies on this challenging condition. The challenge entailed two tracks: Track-1 focused on speaker diarization (SD) in multilingual situations while, Track-2 addressed the language diarization (LD) in a multi-speaker scenario. Both the tracks were evaluated using the same underlying audio data. To facilitate this evaluation, a real-world dataset featuring multilingual, multi-speaker conversational far-field speech was recorded and distributed. Furthermore, a baseline system was made available for both SD and LD task which mimicked the state-of-art in these tasks. The challenge garnered a total of $42$ world-wide registrations and received a total of $19$ combined submissions for Track-1 and Track-2. This paper describes the challenge, details of the datasets, tasks, and the baseline system. Additionally, the paper provides a concise overview of the submitted systems in both tracks, with an emphasis given to the top performing systems. The paper also presents insights and future perspectives for SD and LD tasks, focusing on the key challenges that the systems need to overcome before wide-spread commercial deployment on such conversations.
Abstract（参考訳）: 複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話はしばしば言語が混在する。既存の音声技術は、音声データが複数の言語や話者の多様性に富んでいるような会話から情報を抽出するのに非効率である。 displace (diaarization of speaker and language in conversational environment) チャレンジは、この困難な条件下で話者と言語ダイアリゼーション技術を評価するためのオープンコールを構成する。トラック1は多言語環境での話者ダイアリゼーション(SD)に焦点を当て、トラック2は多話者シナリオで言語ダイアリゼーション(LD)に対処した。両トラックは同じ音声データを用いて評価された。この評価を容易にするために,多言語・多話者対話型遠距離音声を用いた実世界のデータセットを作成した。さらに、SDタスクとLDタスクの両方でベースラインシステムが利用可能となり、これらのタスクの最先端を模倣した。このチャレンジは全世界で42ドルの登録金を集め、トラック1とトラック2の合計で19ドルの応募金を受け取った。本稿では,課題,データセット,タスク,ベースラインシステムの詳細について述べる。さらに,本論文では,提案したシステムの概要を両トラックで簡潔に概説し,上位のシステムに重点を置いている。また,SDタスクとLDタスクに対する洞察と今後の展望を述べるとともに,このような会話に広範に展開する前に,システムが克服すべき重要な課題に焦点をあてる。

関連論文リスト

Face-voice Association in Multilingual Environments (FAME) 2026 Challenge Evaluation Plan [21.995270839155882]
フェース・ボイス・アソシエーション・イン・マルチリンガル・アソシエーション(FAME) 2026 Challengeは、マルチリンガル・シナリオの下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。本報告では、FAME Challengeの課題、データセット、ベースラインモデル、タスクの詳細について説明する。
論文参考訳（メタデータ） (2025-08-06T16:09:47Z)
TCG CREST System Description for the Second DISPLACE Challenge [19.387615374726444]
2024年の第2回DisPLACEチャレンジのために,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。
論文参考訳（メタデータ） (2024-09-16T05:13:34Z)
A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文参考訳（メタデータ） (2024-06-22T10:49:36Z)
The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments [28.460119283649913]
データセットには158時間の音声が含まれており、教師なしと教師なしの両方の単一チャネルの遠距離記録で構成されている。インドの5言語で実施されたASRトラックでは,12時間の近接場単チャンネル記録が提供された。我々は,この第2版における課題の進展を強調するために,私たちのベースラインモデルとdisPLACE-2023の評価データに基づくチームのパフォーマンスを比較した。
論文参考訳（メタデータ） (2024-06-13T17:32:32Z)
Face-voice Association in Multilingual Environments (FAME) Challenge 2024 Evaluation Plan [29.23176868272216]
フェース・ボイス・アソシエーション・イン・マルチ言語環境(FAME)チャレンジ2024は,多言語シナリオのユニークな条件下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。本報告では、FAME Challengeの課題、データセット、ベースライン、タスクの詳細について説明する。
論文参考訳（メタデータ） (2024-04-14T19:51:32Z)
Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文参考訳（メタデータ） (2023-10-09T08:30:01Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文参考訳（メタデータ） (2022-05-20T18:35:38Z)
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文参考訳（メタデータ） (2022-04-29T17:56:59Z)
Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。 CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文参考訳（メタデータ） (2022-01-31T18:11:21Z)
Crossing the Conversational Chasm: A Primer on Multilingual Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。 ToDのユースケースのデータ取得は高価で面倒だ。
論文参考訳（メタデータ） (2021-04-17T15:19:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。