論文の概要: Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis
- arxiv url: http://arxiv.org/abs/2601.13802v1
- Date: Tue, 20 Jan 2026 10:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.25566
- Title: Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis
- Title(参考訳): Habibi:Unified-Dialectal Arabic 音声合成のオープンソース財団を設立
- Authors: Yushen Chen, Junzhe Liu, Yujie Tu, Zhikang Niu, Yuzhe Liang, Kai Yu, Chunyu Qiang, Chen Zhang, Xie Chen,
- Abstract要約: 本稿では,特殊・統一された音声合成モデルであるHabibiを紹介する。
当社のアプローチは、先進的な商用サービスの世代品質を上回ります。
我々は、多言語アラビア語音声合成のための最初の体系的ベンチマークを作成する。
- 参考スコア(独自算出の注目度): 20.50741854108831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A notable gap persists in speech synthesis research and development for Arabic dialects, particularly from a unified modeling perspective. Despite its high practical value, the inherent linguistic complexity of Arabic dialects, further compounded by a lack of standardized data, benchmarks, and evaluation guidelines, steers researchers toward safer ground. To bridge this divide, we present Habibi, a suite of specialized and unified text-to-speech models that harnesses existing open-source ASR corpora to support a wide range of high- to low-resource Arabic dialects through linguistically-informed curriculum learning. Our approach outperforms the leading commercial service in generation quality, while maintaining extensibility through effective in-context learning, without requiring text diacritization. We are committed to open-sourcing the model, along with creating the first systematic benchmark for multi-dialect Arabic speech synthesis. Furthermore, by identifying the key challenges in and establishing evaluation standards for the process, we aim to provide a solid groundwork for subsequent research. Resources at https://SWivid.github.io/Habibi/ .
- Abstract(参考訳): アラビア方言の音声合成研究と開発において、特に統一モデリングの観点から、顕著なギャップが続いている。
その実用価値が高いにもかかわらず、アラビア方言の固有の言語学的複雑さは、標準化されたデータ、ベンチマーク、評価ガイドラインの欠如によってさらに複雑化され、研究者はより安全な場所へ向かった。
この分割を橋渡しするために,既存のオープンソースのASRコーパスを活用し,言語的にインフォームドされたカリキュラム学習を通じて,多種多様なアラビア語方言をサポートする専門的で統一された音声合成モデルであるHabibiを紹介する。
提案手法は,テキストダイアライゼーションを必要とせず,効果的なテキスト内学習による拡張性を維持しつつ,生成品質において主要な商用サービスよりも優れる。
我々は、このモデルをオープンソース化し、多言語アラビア語音声合成のための最初の体系的なベンチマークを作成することを約束している。
さらに,プロセスの評価基準の策定において重要な課題を特定することにより,今後の研究の確固たる基盤となることを目指す。
資料はhttps://SWivid.github.io/Habibi/。
関連論文リスト
- MuDRiC: Multi-Dialect Reasoning for Arabic Commonsense Validation [30.670712065855902]
複数の方言を組み込んだ拡張アラビア・コモンセンスデータセットである MuDRiC を導入し,(ii) アラビア・コモンセンス推論にグラフ畳み込みネットワーク(GCN)を適応させる新しい手法を提案する。
我々の研究は、その複雑なバリエーションを扱うための基礎的データセットと新しい方法の両方を提供することで、アラビア語の自然言語理解を強化する。
論文 参考訳(メタデータ) (2025-08-18T17:42:53Z) - Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning [0.0]
本稿では,弱教師付き学習と教師付き微調整を組み合わせたスケーラブルな学習パイプラインを提案する。
提案手法は,多言語アラビア語のASR課題において第1位にランクインし,最先端の成果を達成している。
論文 参考訳(メタデータ) (2025-08-12T13:02:22Z) - Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T10:18:28Z) - Sadeed: Advancing Arabic Diacritization Through Small Language Model [0.0]
Sadeedはアラビア語の発音のための新しいデコーダのみの言語モデルである。
Sadeedは、厳格なデータクリーニングと正規化パイプラインを通じて構築された、慎重にキュレートされた高品質なダイアグラム化されたデータセットに微調整されている。
SadeedDiac-25は、さまざまなテキストジャンルや複雑性レベルに対して、より公平で包括的な評価を可能にするために設計された、新しいベンチマークである。
論文 参考訳(メタデータ) (2025-04-30T13:37:24Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。