論文の概要: Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization
- arxiv url: http://arxiv.org/abs/2605.25928v1
- Date: Mon, 25 May 2026 15:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.347089
- Title: Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization
- Title(参考訳): KSAA-2026 タスク2: アラビア語発音のための正規化ファインチューニング
- Authors: Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi,
- Abstract要約: KSAA-2026 音声自動発音によるアラビア語発音における共有課題の第2タスクの入賞システムについて述べる。
本システムでは、事前訓練したCATTテキストエンコーダと凍結したWhisper音声エンコーダを組み合わせた文字レベルのマルチモーダルモデルであるCATT-Whisperを微調整する。
このシステムは、主要なリーダーボードの基準で23.26%のWERを達成し、全参加者の1位となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe the winning system for Task 2 of the KSAA-2026 Shared Task on Arabic Speech Dictation with Automatic Diacritization. The task requires producing fully diacritized Arabic text from speech audio and undiacritized transcripts, with only 2,327 training samples available and no external data permitted. Our system fine-tunes CATT-Whisper, a character-level multimodal model combining a pretrained CATT text encoder with a frozen Whisper speech encoder. The key to our approach is training regularization: R-Drop consistency regularization, Optuna-optimized hyperparameters with high weight decay, and Focal Loss. At inference, we average 200 stochastic forward passes across four model checkpoints using Monte Carlo Dropout at the softmax probability level. The system achieves 23.26% WER on the primary leaderboard metric (with case endings, including no-diacritic positions), placing 1st among all participants.
- Abstract(参考訳): KSAA-2026 音声自動発音によるアラビア語発音における共有課題の第2タスクの入賞システムについて述べる。
このタスクでは、音声音声と未発音の文字起こしから完全に発音されたアラビア文字を生成する必要があり、2,327のトレーニングサンプルのみが利用可能であり、外部データは許可されていない。
本システムでは、事前訓練したCATTテキストエンコーダと凍結したWhisper音声エンコーダを組み合わせた文字レベルのマルチモーダルモデルであるCATT-Whisperを微調整する。
このアプローチの鍵となるのは、R-Drop整合正則化、Optuna最適化ハイパーパラメータの高重崩壊、Focal Lossのトレーニングである。
推定では,ソフトマックス確率レベルでモンテカルロ・ドロップアウトを用いた4つのモデルチェックポイントを平均200確率フォワードで通過する。
このシステムは、主要なリーダーボードの基準で23.26%のWERを達成し、全ての参加者の中では1位となっている。
関連論文リスト
- RosettaSpeech: Zero-Shot Speech-to-Speech Translation from Monolingual Data [30.27234062544891]
本稿では,ゼロショット音声音声翻訳(S2ST)のための新規かつ簡易なフレームワークであるRosettaSpeechを紹介する。
本手法はテキストベースのNMTモデルに固有の言語知識を活用するが,パラレル音声対の必要性を極端に排除する。
我々のモデルは、トレーニング中にテキストを中間ブリッジとして使用するが、推論時に直接エンドツーエンドの音声合成モデルとして機能する。
論文 参考訳(メタデータ) (2025-11-26T02:02:20Z) - Abjad AI at NADI 2025: CATT-Whisper: Multimodal Diacritic Restoration Using Text and Speech Representations [1.1391158217994781]
アラビア語の方言文に対する多モーダルアプローチを用いたダイアクリティカル・リカバリ(DR)課題に取り組む。
本稿では,CATT という名前の事前学習モデルから抽出したエンコーダを用いて,テキストのモダリティを表すモデルを提案する。
実験の結果,提案手法は, 単語誤り率0.25, 文字誤り率0.9を実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-28T09:58:18Z) - End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs [0.3867363075280544]
音声翻訳(英: Speech Translation、ST)とは、ある言語からの音声信号を他の言語の対応するテキストに変換することを含む機械翻訳タスクである。
本稿では,事前学習した音声エンコーダとLarge Language Models(LLM)を併用して,音声認識(ASR)とSTの両方を同時に実行するためのエンドツーエンドアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2025-10-11T20:10:30Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。