Fugu-MT 論文翻訳(概要): The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios

論文の概要: The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios

arxiv url: http://arxiv.org/abs/2306.13734v2
Date: Fri, 14 Jul 2023 09:45:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-17 16:29:08.433237
Title: The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios
Title（参考訳）: CHiME-7 DASRチャレンジ: 異種シナリオにおける複数デバイスによる遠隔会議記録
Authors: Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai Chang, Paola Garcia, Matthew Maciejewski, Yoshiki Masuyama, Zhong-Qiu Wang, Stefano Squartini, Sanjeev Khudanpur
Abstract要約: 第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
参考スコア（独自算出の注目度）: 61.74042680711718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The CHiME challenges have played a significant role in the development and evaluation of robust automatic speech recognition (ASR) systems. We introduce the CHiME-7 distant ASR (DASR) task, within the 7th CHiME challenge. This task comprises joint ASR and diarization in far-field settings with multiple, and possibly heterogeneous, recording devices. Different from previous challenges, we evaluate systems on 3 diverse scenarios: CHiME-6, DiPCo, and Mixer 6. The goal is for participants to devise a single system that can generalize across different array geometries and use cases with no a-priori information. Another departure from earlier CHiME iterations is that participants are allowed to use open-source pre-trained models and datasets. In this paper, we describe the challenge design, motivation, and fundamental research questions in detail. We also present the baseline system, which is fully array-topology agnostic and features multi-channel diarization, channel selection, guided source separation and a robust ASR model that leverages self-supervised speech representations (SSLR).
Abstract（参考訳）: CHiME課題は、ロバスト自動音声認識(ASR)システムの開発と評価において重要な役割を果たしている。第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを導入する。このタスクは、複数の異種記録装置を備えた遠方フィールド設定における統合asrおよびダイアリゼーションを含む。従来の課題と異なり、CHiME-6、DiPCo、Mixer 6の3つのシナリオでシステムを評価する。目的は、参加者がアプリオリ情報なしで異なる配列のジオメトリやユースケースをまたいで一般化できる単一のシステムを考案することである。以前のCHiMEのイテレーションとは別の相違点として、参加者はオープンソースで事前トレーニングされたモデルとデータセットを使用することができる。本稿では,課題設計,モチベーション,基本的な研究課題について詳述する。また,完全アレートポロジーに依存しないベースラインシステムを提案し,マルチチャネルダイアリゼーション,チャネル選択,誘導ソース分離,自己教師付き音声表現(SSLR)を利用した堅牢なASRモデルを提案する。

関連論文リスト

MSRS: Evaluating Multi-Source Retrieval-Augmented Generation [51.717139132190574]
多くの現実世界のアプリケーションは、複数のソースにまたがる情報を統合して要約する能力を必要としている。本稿では、RAGシステムに対して異なるソース間で情報を統合するための評価ベンチマークを構築するためのスケーラブルなフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-28T14:59:55Z)
Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges [58.80034860169605]
CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
論文参考訳（メタデータ） (2025-07-24T07:56:24Z)
Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文参考訳（メタデータ） (2025-03-21T12:27:49Z)
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。 SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。 Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文参考訳（メタデータ） (2024-11-07T18:12:49Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文参考訳（メタデータ） (2024-06-19T21:11:01Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text [0.0]
SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。本稿では,主にSubtask Bを扱うシステムを提案する。これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
論文参考訳（メタデータ） (2024-04-01T06:25:47Z)
An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders [3.1093882314734285]
Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。本稿では,シンプルで普遍的なtextbfMulti-textbfModal textbfSequential textbfRecommendation (textbfMMSR) フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-26T04:16:57Z)
NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription [21.236634241186458]
本研究では,Natural Office Talkers in Settings of Far-field Audio Recordings (NOTSOFAR-1'') Challenge with datasets and baseline system。この課題は遠距離話者ダイアリゼーションと遠隔会議シナリオにおける自動音声認識(DASR)に焦点を当てる。
論文参考訳（メタデータ） (2024-01-16T23:50:26Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
One Self-Configurable Model to Solve Many Abstract Visual Reasoning Problems [0.0]
本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
論文参考訳（メタデータ） (2023-12-15T18:15:20Z)
Multimodal Dialogue State Tracking By QA Approach with Data Augmentation [16.436557991074068]
本稿では,オープンドメイン質問応答(QA)の観点から,AVSD(Audio-Video Scene-Aware Dialogue)タスクを解釈する。提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2020-07-20T06:23:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。