論文の概要: TCG CREST System Description for the Second DISPLACE Challenge
- arxiv url: http://arxiv.org/abs/2409.15356v1
- Date: Mon, 16 Sep 2024 05:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:43:14.892712
- Title: TCG CREST System Description for the Second DISPLACE Challenge
- Title(参考訳): TCG CREST System Description for the Second DisPLACE Challenge
- Authors: Nikhil Raghav, Subhajit Saha, Md Sahidullah, Swagatam Das,
- Abstract要約: 2024年の第2回DisPLACEチャレンジのために,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。
コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。
- 参考スコア(独自算出の注目度): 19.387615374726444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we describe the speaker diarization (SD) and language diarization (LD) systems developed by our team for the Second DISPLACE Challenge, 2024. Our contributions were dedicated to Track 1 for SD and Track 2 for LD in multilingual and multi-speaker scenarios. We investigated different speech enhancement techniques, voice activity detection (VAD) techniques, unsupervised domain categorization, and neural embedding extraction architectures. We also exploited the fusion of various embedding extraction models. We implemented our system with the open-source SpeechBrain toolkit. Our final submissions use spectral clustering for both the speaker and language diarization. We achieve about $7\%$ relative improvement over the challenge baseline in Track 1. We did not obtain improvement over the challenge baseline in Track 2.
- Abstract(参考訳): 本稿では,2024年の第2回DisPLACEチャレンジに向けて,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。
コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。
本研究では,音声強調技術,音声活動検出(VAD)技術,教師なし領域分類,ニューラルネットワーク抽出アーキテクチャについて検討した。
また,様々な埋め込み抽出モデルの融合を利用した。
我々はオープンソースのSpeechBrainツールキットでシステムを実装した。
最終的な提案では、話者ダイアリゼーションと言語ダイアリゼーションの両方にスペクトルクラスタリングを使用します。
トラックのチャレンジベースラインよりも約7\%の相対的な改善を実現しています
1.トラックにおけるチャレンジベースラインの改善は得られなかった。
2。
関連論文リスト
- The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments [28.460119283649913]
データセットには158時間の音声が含まれており、教師なしと教師なしの両方の単一チャネルの遠距離記録で構成されている。
インドの5言語で実施されたASRトラックでは,12時間の近接場単チャンネル記録が提供された。
我々は,この第2版における課題の進展を強調するために,私たちのベースラインモデルとdisPLACE-2023の評価データに基づくチームのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-06-13T17:32:32Z) - Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and
LAnguage in Conversational Environments [28.618333018398122]
複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話は言語が混在することが多い。
既存の音声技術は、音声データが複数の言語や話者との多様性に富んでいるような会話から情報を抽出するのに非効率である可能性がある。
DISPLACEチャレンジは、この挑戦的な状況下で話者と言語ダイアリゼーション技術の評価とベンチマークを行うためのオープンコールを構成する。
論文 参考訳(メタデータ) (2023-11-21T12:23:58Z) - Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech
Systems for the MADASR 2023 Challenge [2.018088271426157]
本稿では,ASRU MADASR 2023 Challengeのために開発されたタリン工科大学(TalTech)システムについて述べる。
この課題は、訓練された音声とテキストデータに制限がある方言に富んだインドの言語の自動音声認識に焦点を当てている。
TalTechは、提供されたトレーニングデータのみの使用を可能にするトラック1と、追加のオーディオデータの使用を可能にするトラック3の2つのトラックに参加した。
論文 参考訳(メタデータ) (2023-10-26T14:57:08Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Audio-Visual Scene-Aware Dialog and Reasoning using Audio-Visual
Transformers with Joint Student-Teacher Learning [70.56330507503867]
これまでの研究では、AVSD(Audio-Visual Scene-Aware Dialog)タスクを提案し、AVSDデータセットを収集し、AVSD技術を開発し、AVSDチャレンジトラックをホストした。
本稿では、DSTC10のための時間的推論とAVSDデータセットの新たな拡張を含む新しいタスクを紹介する。
論文 参考訳(メタデータ) (2021-10-13T17:24:16Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z) - USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文 参考訳(メタデータ) (2021-03-19T07:00:51Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - DIHARD II is Still Hard: Experimental Results and Discussions from the
DKU-LENOVO Team [22.657782236219933]
本稿では,DKULEチームによる第2回DIHARD音声ダイアリゼーションチャレンジの提出システムについて述べる。
我々のダイアリゼーションシステムには、音声活動検出(VAD)、セグメンテーション、話者埋め込み抽出、類似度スコアリング、クラスタリング、分離、重複検出といった複数のモジュールが含まれている。
当社のシステムでは、公式基準に対してDerを27.5%、31.7%削減していますが、ダイアリゼーションタスクは依然として非常に難しいと考えています。
論文 参考訳(メタデータ) (2020-02-23T11:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。