論文の概要: The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios
- arxiv url: http://arxiv.org/abs/2306.13734v1
- Date: Fri, 23 Jun 2023 18:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 19:26:27.839632
- Title: The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios
- Title(参考訳): CHiME-7 DASRチャレンジ: 異種シナリオにおける複数デバイスによる遠隔会議記録
- Authors: Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai
Chang, Paola Garcia, Yoshiki Masuyama, Zhong-Qiu Wang, Stefano Squartini,
Sanjeev Khudanpur
- Abstract要約: 第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。
このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。
目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
- 参考スコア(独自算出の注目度): 61.90009833483018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CHiME challenges have played a significant role in the development and
evaluation of robust speech recognition (ASR) systems. We introduce the CHiME-7
distant ASR (DASR) task, within the 7th CHiME challenge. This task comprises
joint ASR and diarization in far-field settings with multiple, and possibly
heterogeneous, recording devices. Different from previous challenges, we
evaluate systems on 3 diverse scenarios: CHiME-6, DiPCo, and Mixer 6. The goal
is for participants to devise a single system that can generalize across
different array geometries and use cases with no a-priori information. Another
departure from earlier CHiME iterations is that participants are allowed to use
open-source pre-trained models and datasets. In this paper, we describe the
challenge design, motivation, and fundamental research questions in detail. We
also present the baseline system, which is fully array-topology agnostic and
features multi-channel diarization, channel selection, guided source separation
and a robust ASR model that leverages self-supervised speech representations
(SSLR).
- Abstract(参考訳): CHiME課題は、ロバスト音声認識(ASR)システムの開発と評価において重要な役割を果たしている。
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを導入する。
このタスクは、複数の異種記録装置を備えた遠方フィールド設定における統合asrおよびダイアリゼーションを含む。
従来の課題と異なり、CHiME-6、DiPCo、Mixer 6の3つのシナリオでシステムを評価する。
目的は、参加者がアプリオリ情報なしで異なる配列のジオメトリやユースケースをまたいで一般化できる単一のシステムを考案することである。
以前のCHiMEのイテレーションとは別の相違点として、参加者はオープンソースで事前トレーニングされたモデルとデータセットを使用することができる。
本稿では,課題設計,モチベーション,基本的な研究課題について詳述する。
また,完全アレートポロジーに依存しないベースラインシステムを提案し,マルチチャネルダイアリゼーション,チャネル選択,誘導ソース分離,自己教師付き音声表現(SSLR)を利用した堅牢なASRモデルを提案する。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text [0.0]
SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
本稿では,主にSubtask Bを扱うシステムを提案する。
これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T06:25:47Z) - An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders [3.1093882314734285]
Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。
多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。
本稿では,シンプルで普遍的なtextbfMulti-textbfModal textbfSequential textbfRecommendation (textbfMMSR) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-26T04:16:57Z) - NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant
Meeting Transcription [21.236634241186458]
本研究では,Natural Office Talkers in Settings of Far-field Audio Recordings (NOTSOFAR-1'') Challenge with datasets and baseline system。
この課題は遠距離話者ダイアリゼーションと遠隔会議シナリオにおける自動音声認識(DASR)に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-16T23:50:26Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - One Self-Configurable Model to Solve Many Abstract Visual Reasoning
Problems [0.0]
本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。
提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。
実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
論文 参考訳(メタデータ) (2023-12-15T18:15:20Z) - Multimodal Dialogue State Tracking By QA Approach with Data Augmentation [16.436557991074068]
本稿では,オープンドメイン質問応答(QA)の観点から,AVSD(Audio-Video Scene-Aware Dialogue)タスクを解釈する。
提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。
実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2020-07-20T06:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。