論文の概要: Mići Princ -- A Little Boy Teaching Speech Technologies the Chakavian Dialect
- arxiv url: http://arxiv.org/abs/2602.03245v1
- Date: Tue, 03 Feb 2026 08:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.328848
- Title: Mići Princ -- A Little Boy Teaching Speech Technologies the Chakavian Dialect
- Title(参考訳): Mići Princ - チャカヴィア方言の音声技術を教える少年
- Authors: Nikola Ljubešić, Peter Rupnik, Tea Perinčić,
- Abstract要約: 本稿では,有名な小説『小さな王子』の翻訳書をチャカヴィア方言に翻訳する作業について述べる。
データセットはコンピュータ可読でAI可読なデータセットである。
我々は、すでに実施した実験のセットを超えて、このデータセットのさらなる使用を想定しています。
- 参考スコア(独自算出の注目度): 0.6190197008538485
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper documents our efforts in releasing the printed and audio book of the translation of the famous novel The Little Prince into the Chakavian dialect, as a computer-readable, AI-ready dataset, with the textual and the audio components of the two releases now aligned on the level of each written and spoken word. Our motivation for working on this release is multiple. The first one is our wish to preserve the highly valuable and specific content beyond the small editions of the printed and the audio book. With the dataset published in the CLARIN.SI repository, this content is from now on at the fingertips of any interested individual. The second motivation is to make the data available for various artificial-intelligence-related usage scenarios, such as the one we follow upon inside this paper already -- adapting the Whisper-large-v3 open automatic speech recognition model, with decent performance on standard Croatian, to Chakavian dialectal speech. We can happily report that with adapting the model, the word error rate on the selected test data has being reduced to a half, while we managed to remove up to two thirds of the error on character level. We envision many more usages of this dataset beyond the set of experiments we have already performed, both on tasks of artificial intelligence research and application, as well as dialectal research. The third motivation for this release is our hope that this, now highly structured dataset, will be transformed into a digital online edition of this work, allowing individuals beyond the research and technology communities to enjoy the beauty of the message of the little boy in the desert, told through the spectacular prism of the Chakavian dialect.
- Abstract(参考訳): 本稿では,有名な小説『ザ・リトル・プリンス』の翻訳書をコンピュータ可読でAI対応のデータセットとしてチャカヴィア方言に翻訳する作業について述べる。
このリリースに取り組む動機は複数です。
1つ目は、印刷物とオーディオブックの小さな版を超えて、非常に価値が高く、特定のコンテンツを保存したいという私たちの願望です。
CLARIN.SIリポジトリに公開されたデータセットにより、このコンテンツは、現在、興味のある個人の指先にある。
第2の動機は、この論文の中で私たちが既にフォローしているような、さまざまな人工知能に関する使用シナリオにおいて、標準クロアチア語で十分なパフォーマンスでWhisper-large-v3オープン自動音声認識モデルをチャカヴィア方言の言語に適応させることである。
モデルを適用すると、選択したテストデータの単語エラー率が半分に削減され、文字レベルのエラーの最大3分の2が取り除かれたことを喜んで報告できる。
私たちは、人工知能の研究と応用のタスクだけでなく、方言の研究にも、すでに実施した実験のセットを超えて、このデータセットのさらなる使用を想定しています。
このリリースの第3の動機は、今や高度に構造化されたデータセットが、この作品のデジタルオンライン版に変換されることを期待していることです。
関連論文リスト
- Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning [9.670752318129326]
まず, フランス語音声における音素認識に適応したwav2vec 2.0, HuBERT, WavLMモデルを比較した。
次に,子音の微調整中に変圧器ブロックを解凍することで適応する。
We show that WavLM base+ is more robust to various reading task and noise levels。
論文 参考訳(メタデータ) (2025-03-06T18:57:16Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Improving Yor\`ub\'a Diacritic Restoration [3.301896537513352]
ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。
ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
論文 参考訳(メタデータ) (2020-03-23T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。