論文の概要: The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios
- arxiv url: http://arxiv.org/abs/2306.13734v2
- Date: Fri, 14 Jul 2023 09:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 16:29:08.433237
- Title: The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios
- Title(参考訳): CHiME-7 DASRチャレンジ: 異種シナリオにおける複数デバイスによる遠隔会議記録
- Authors: Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai
Chang, Paola Garcia, Matthew Maciejewski, Yoshiki Masuyama, Zhong-Qiu Wang,
Stefano Squartini, Sanjeev Khudanpur
- Abstract要約: 第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。
このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。
目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
- 参考スコア(独自算出の注目度): 61.74042680711718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CHiME challenges have played a significant role in the development and
evaluation of robust automatic speech recognition (ASR) systems. We introduce
the CHiME-7 distant ASR (DASR) task, within the 7th CHiME challenge. This task
comprises joint ASR and diarization in far-field settings with multiple, and
possibly heterogeneous, recording devices. Different from previous challenges,
we evaluate systems on 3 diverse scenarios: CHiME-6, DiPCo, and Mixer 6. The
goal is for participants to devise a single system that can generalize across
different array geometries and use cases with no a-priori information. Another
departure from earlier CHiME iterations is that participants are allowed to use
open-source pre-trained models and datasets. In this paper, we describe the
challenge design, motivation, and fundamental research questions in detail. We
also present the baseline system, which is fully array-topology agnostic and
features multi-channel diarization, channel selection, guided source separation
and a robust ASR model that leverages self-supervised speech representations
(SSLR).
- Abstract(参考訳): CHiME課題は、ロバスト自動音声認識(ASR)システムの開発と評価において重要な役割を果たしている。
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを導入する。
このタスクは、複数の異種記録装置を備えた遠方フィールド設定における統合asrおよびダイアリゼーションを含む。
従来の課題と異なり、CHiME-6、DiPCo、Mixer 6の3つのシナリオでシステムを評価する。
目的は、参加者がアプリオリ情報なしで異なる配列のジオメトリやユースケースをまたいで一般化できる単一のシステムを考案することである。
以前のCHiMEのイテレーションとは別の相違点として、参加者はオープンソースで事前トレーニングされたモデルとデータセットを使用することができる。
本稿では,課題設計,モチベーション,基本的な研究課題について詳述する。
また,完全アレートポロジーに依存しないベースラインシステムを提案し,マルチチャネルダイアリゼーション,チャネル選択,誘導ソース分離,自己教師付き音声表現(SSLR)を利用した堅牢なASRモデルを提案する。
関連論文リスト
- NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant
Meeting Transcription [21.236634241186458]
本研究では,Natural Office Talkers in Settings of Far-field Audio Recordings (NOTSOFAR-1'') Challenge with datasets and baseline system。
この課題は遠距離話者ダイアリゼーションと遠隔会議シナリオにおける自動音声認識(DASR)に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-16T23:50:26Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition [68.70787870401159]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - One Self-Configurable Model to Solve Many Abstract Visual Reasoning
Problems [0.0]
本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。
提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。
実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
論文 参考訳(メタデータ) (2023-12-15T18:15:20Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Dialogue-Contextualized Re-ranking for Medical History-Taking [5.039849340960835]
本稿では,第1段階の質問候補を再ランク付けすることで,トレーニングと推論のギャップを埋める2段階の再ランク付け手法を提案する。
専門家システムと比較して,提案するトランスフォーマーバックボーンを用いたグローバルリランカにより,最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-04T17:31:32Z) - A Unified Multi-task Learning Framework for Multi-goal Conversational
Recommender Systems [91.70511776167488]
MG-CRSには、ゴールプランニング、トピック予測、アイテムレコメンデーション、レスポンスジェネレーションの4つのタスクがある。
我々は,Unified MultI-goal conversational recommeNDerシステム,すなわちUniMINDを提案する。
マルチタスク学習能力を備えた統一モデルを実現するために,プロンプトに基づく学習戦略を検討した。
論文 参考訳(メタデータ) (2022-04-14T12:31:27Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z) - Personalized Multimodal Feedback Generation in Education [50.95346877192268]
学校課題の自動評価は、教育分野におけるAIの重要な応用である。
モーダルゲート機構とパーソナライズされたバイアス機構を備えたPMFGN(Personalized Multimodal Feedback Generation Network)を提案する。
我々のモデルは、より正確で多様なフィードバックを生成することによって、いくつかのベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2020-10-31T05:26:49Z) - Multimodal Dialogue State Tracking By QA Approach with Data Augmentation [16.436557991074068]
本稿では,オープンドメイン質問応答(QA)の観点から,AVSD(Audio-Video Scene-Aware Dialogue)タスクを解釈する。
提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。
実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2020-07-20T06:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。