Fugu-MT 論文翻訳(概要): A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain

論文の概要: A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain

arxiv url: http://arxiv.org/abs/2403.04280v1
Date: Thu, 7 Mar 2024 07:24:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 14:57:33.201397
Title: A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain
Title（参考訳）: アラビアコールドメインにおける音声認識評価のための新しいベンチマーク
Authors: Qusai Abo Obaidah, Muhy Eddin Zater, Adnan Jaljuli, Ali Mahboub, Asma Hakouz, Bashar Alfrou, Yazan Estaitia
Abstract要約: この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work is an attempt to introduce a comprehensive benchmark for Arabic speech recognition, specifically tailored to address the challenges of telephone conversations in Arabic language. Arabic, characterized by its rich dialectal diversity and phonetic complexity, presents a number of unique challenges for automatic speech recognition (ASR) systems. These challenges are further amplified in the domain of telephone calls, where audio quality, background noise, and conversational speech styles negatively affect recognition accuracy. Our work aims to establish a robust benchmark that not only encompasses the broad spectrum of Arabic dialects but also emulates the real-world conditions of call-based communications. By incorporating diverse dialectical expressions and accounting for the variable quality of call recordings, this benchmark seeks to provide a rigorous testing ground for the development and evaluation of ASR systems capable of navigating the complexities of Arabic speech in telephonic contexts. This work also attempts to establish a baseline performance evaluation using state-of-the-art ASR technologies.
Abstract（参考訳）: この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。アラビア語は方言の多様性と音声の複雑さを特徴とし、自動音声認識(ASR)システムに固有の課題を数多く提示している。これらの課題は、音声品質、背景雑音、会話音声スタイルが認識精度に悪影響を及ぼす電話の領域においてさらに増幅される。我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。本ベンチマークは,多様な方言表現を取り入れ,通話記録の変動品質を考慮し,アラビア語音声の複雑度を電話で操作できるASRシステムの開発と評価のための厳密な試験基盤を提供することを目的とする。この研究は、最先端のASR技術を用いたベースライン性能評価の確立も試みている。

関連論文リスト

Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文参考訳（メタデータ） (2026-02-10T14:31:11Z)
VIBEVOICE-ASR Technical Report [95.57263110940973]
VibeVoice-ASRは、ロングフォームオーディオにおけるコンテキスト断片化とマルチスピーカー複雑性の課題に対処する。 50以上の言語をサポートし、明示的な言語設定を必要としない。
論文参考訳（メタデータ） (2026-01-26T06:11:51Z)
Arab Voices: Mapping Standard and Dialectal Arabic Speech Technology [25.96097632833693]
方言アラビア語(DA)音声データは、ドメインカバレッジ、方言ラベリングの実践、記録条件など多岐にわたる。我々は,広く使用されているDAコーパスの訓練分割に対して,音質の客観的なプロキシとともに「言語弁証性」の計算分析を行う。音響条件と、データセット間の方言信号の強度と一貫性の両方において、相当な不均一性を見出した。
論文参考訳（メタデータ） (2026-01-19T19:02:40Z)
Enhancing Quranic Learning: A Multimodal Deep Learning Approach for Arabic Phoneme Recognition [0.0]
本研究では、アラビア音素誤発音検出のためのトランスフォーマーに基づくマルチモーダルフレームワークを提案する。このフレームワークは、UniSpeech由来の音響埋め込みとWhisper転写から抽出されたBERTベースのテキスト埋め込みを統合する。この研究は、インテリジェントで話者に依存しないマルチモーダル・コンピュータ支援言語学習(CALL)システムの開発に寄与する。
論文参考訳（メタデータ） (2025-11-21T18:25:46Z)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect [0.9772968596463595]
本稿では,チュニジア・アラビア方言の音韻的・語彙的特徴を捉えたLinTOデータセットを提案する。これらのデータセットには、さまざまなソースからのさまざまなテキストと、多様な話者を特徴とする実世界のオーディオサンプルが含まれている。
論文参考訳（メタデータ） (2025-04-03T14:05:56Z)
VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。 VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-10-22T17:15:20Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
ASR Benchmarking: Need for a More Representative Conversational Dataset [3.017953715883516]
本研究では、大人同士の非構造的な会話からなる、TalkBankから派生した多言語会話データセットを提案する。その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。
論文参考訳（メタデータ） (2024-09-18T15:03:04Z)
The evaluation of a code-switched Sepedi-English automatic speech recognition system [0.0]
本稿では,セペディ・イングリッシュ方式の自動音声認識システムの評価について述べる。このエンドツーエンドシステムは、Sepedi Prompted Code Switching corpus と CTC アプローチを用いて開発された。しかし、このモデルは41.9%という最低のWERを生み出したが、セペディ文字のみを認識するという課題に直面した。
論文参考訳（メタデータ） (2024-03-11T15:11:28Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
Evaluation of Automated Speech Recognition Systems for Conversational Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文参考訳（メタデータ） (2022-11-05T04:35:40Z)
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文参考訳（メタデータ） (2022-04-29T17:56:59Z)
Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文参考訳（メタデータ） (2021-08-30T07:00:28Z)
Differentiable Allophone Graphs for Language-Universal Speech Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文参考訳（メタデータ） (2021-07-24T15:09:32Z)
Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文参考訳（メタデータ） (2021-04-21T20:21:06Z)
Contextualized Attention-based Knowledge Transfer for Spoken Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。 Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-21T15:17:18Z)
Towards Data Distillation for End-to-end Spoken Conversational Question Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。 SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文参考訳（メタデータ） (2020-10-18T05:53:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。