論文の概要: Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and
LAnguage in Conversational Environments
- arxiv url: http://arxiv.org/abs/2311.12564v3
- Date: Wed, 3 Jan 2024 05:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:37:30.640325
- Title: Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and
LAnguage in Conversational Environments
- Title(参考訳): DisPLACE Challenge 2023の概要 -- 会話環境におけるSPeakerとLanguageのダイアリゼーション
- Authors: Shikha Baghel, Shreyas Ramoji, Somil Jain, Pratik Roy Chowdhuri,
Prachi Singh, Deepu Vijayasenan, Sriram Ganapathy
- Abstract要約: 複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話は言語が混在することが多い。
既存の音声技術は、音声データが複数の言語や話者との多様性に富んでいるような会話から情報を抽出するのに非効率である可能性がある。
DISPLACEチャレンジは、この挑戦的な状況下で話者と言語ダイアリゼーション技術の評価とベンチマークを行うためのオープンコールを構成する。
- 参考スコア(独自算出の注目度): 28.618333018398122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-lingual societies, where multiple languages are spoken in a small
geographic vicinity, informal conversations often involve mix of languages.
Existing speech technologies may be inefficient in extracting information from
such conversations, where the speech data is rich in diversity with multiple
languages and speakers. The DISPLACE (DIarization of SPeaker and LAnguage in
Conversational Environments) challenge constitutes an open-call for evaluating
and bench-marking the speaker and language diarization technologies on this
challenging condition. The challenge entailed two tracks: Track-1 focused on
speaker diarization (SD) in multilingual situations while, Track-2 addressed
the language diarization (LD) in a multi-speaker scenario. Both the tracks were
evaluated using the same underlying audio data. To facilitate this evaluation,
a real-world dataset featuring multilingual, multi-speaker conversational
far-field speech was recorded and distributed. Furthermore, a baseline system
was made available for both SD and LD task which mimicked the state-of-art in
these tasks. The challenge garnered a total of $42$ world-wide registrations
and received a total of $19$ combined submissions for Track-1 and Track-2. This
paper describes the challenge, details of the datasets, tasks, and the baseline
system. Additionally, the paper provides a concise overview of the submitted
systems in both tracks, with an emphasis given to the top performing systems.
The paper also presents insights and future perspectives for SD and LD tasks,
focusing on the key challenges that the systems need to overcome before
wide-spread commercial deployment on such conversations.
- Abstract(参考訳): 複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話はしばしば言語が混在する。
既存の音声技術は、音声データが複数の言語や話者の多様性に富んでいるような会話から情報を抽出するのに非効率である。
displace (diaarization of speaker and language in conversational environment) チャレンジは、この困難な条件下で話者と言語ダイアリゼーション技術を評価するためのオープンコールを構成する。
トラック1は多言語環境での話者ダイアリゼーション(SD)に焦点を当て、トラック2は多話者シナリオで言語ダイアリゼーション(LD)に対処した。
両トラックは同じ音声データを用いて評価された。
この評価を容易にするために,多言語・多話者対話型遠距離音声を用いた実世界のデータセットを作成した。
さらに、SDタスクとLDタスクの両方でベースラインシステムが利用可能となり、これらのタスクの最先端を模倣した。
このチャレンジは全世界で42ドルの登録金を集め、トラック1とトラック2の合計で19ドルの応募金を受け取った。
本稿では,課題,データセット,タスク,ベースラインシステムの詳細について述べる。
さらに,本論文では,提案したシステムの概要を両トラックで簡潔に概説し,上位のシステムに重点を置いている。
また,SDタスクとLDタスクに対する洞察と今後の展望を述べるとともに,このような会話に広範に展開する前に,システムが克服すべき重要な課題に焦点をあてる。
関連論文リスト
- A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。
このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文 参考訳(メタデータ) (2024-06-22T10:49:36Z) - The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments [28.460119283649913]
データセットには158時間の音声が含まれており、教師なしと教師なしの両方の単一チャネルの遠距離記録で構成されている。
インドの5言語で実施されたASRトラックでは,12時間の近接場単チャンネル記録が提供された。
我々は,この第2版における課題の進展を強調するために,私たちのベースラインモデルとdisPLACE-2023の評価データに基づくチームのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-06-13T17:32:32Z) - Face-voice Association in Multilingual Environments (FAME) Challenge 2024 Evaluation Plan [29.23176868272216]
フェース・ボイス・アソシエーション・イン・マルチ言語環境(FAME)チャレンジ2024は,多言語シナリオのユニークな条件下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。
本報告では、FAME Challengeの課題、データセット、ベースライン、タスクの詳細について説明する。
論文 参考訳(メタデータ) (2024-04-14T19:51:32Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。