論文の概要: Developing an Open Conversational Speech Corpus for the Isan Language
- arxiv url: http://arxiv.org/abs/2511.21229v1
- Date: Wed, 26 Nov 2025 09:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.051001
- Title: Developing an Open Conversational Speech Corpus for the Isan Language
- Title(参考訳): Isan言語のためのオープン会話音声コーパスの開発
- Authors: Adisai Na-Thalang, Chanakan Wittayasakpan, Kritsadha Phatcharoen, Supakit Buakaw,
- Abstract要約: 本稿では,タイ語で最も広く話されている地域方言であるIsan言語のための会話音声データセットについて紹介する。
このリソースを構築する上で重要な課題は、Isanの標準化された正書法がないことである。
現在の筆記法はタイ語とイザン語の違いによって大きく異なる。
- 参考スコア(独自算出の注目度): 0.044600811956757434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the development of the first open conversational speech dataset for the Isan language, the most widely spoken regional dialect in Thailand. Unlike existing speech corpora that are primarily based on read or scripted speech, this dataset consists of natural speech, thereby capturing authentic linguistic phenomena such as colloquials, spontaneous prosody, disfluencies, and frequent code-switching with central Thai. A key challenge in building this resource lies in the lack of a standardized orthography for Isan. Current writing practices vary considerably, due to the different lexical tones between Thai and Isan. This variability complicates the design of transcription guidelines and poses questions regarding consistency, usability, and linguistic authenticity. To address these issues, we establish practical transcription protocols that balance the need for representational accuracy with the requirements of computational processing. By releasing this dataset as an open resource, we aim to contribute to inclusive AI development, support research on underrepresented languages, and provide a basis for addressing the linguistic and technical challenges inherent in modeling conversational speech.
- Abstract(参考訳): 本稿では,タイ語で最も広く話されている地域方言であるIsan言語のための,最初のオープンな会話音声データセットの開発について紹介する。
主に読み書き音声に基づく既存の音声コーパスとは異なり、このデータセットは自然な音声で構成されており、結果として、口語、自然韻律、拡散、中央タイ語との頻繁なコードスイッチングのような真正な言語現象を捉えている。
このリソースを構築する上で重要な課題は、Isanの標準化された正書法がないことである。
現在の筆記法はタイ語とイザン語の違いによって大きく異なる。
この可変性は、転写ガイドラインの設計を複雑にし、一貫性、ユーザビリティ、言語的信頼性に関する疑問を提起する。
これらの問題に対処するために、表現精度と計算処理の要求とのバランスをとるための実用的な転写プロトコルを確立する。
このデータセットをオープンリソースとしてリリースすることで、包括的AI開発に貢献し、表現不足言語の研究を支援し、会話音声のモデル化に固有の言語的および技術的な課題に対処するための基盤を提供する。
関連論文リスト
- Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling [43.87842102048749]
音声対話は人間とAIの相互作用において重要な役割を担い、対話指向音声言語モデル(SLM)を必要とする
ヒッカ品質の音声生成を確実にするためには、データはWild内のデータのように自然に必要であり、ノイズを除去して音響的にクリーンでなければならない。
本研究では,人間-AI対話のための日本語コーパス(J-CHAT)という,大規模音声対話コーパスの構築とリリースによって,このギャップに対処する。
本稿では、コーパス構築のための言語に依存しない手法を提案し、J-CHATで訓練されたSLMを用いた対話生成実験について述べる。
論文 参考訳(メタデータ) (2024-07-22T17:46:50Z) - Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit [1.184066113335041]
この論文は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすくすることを目的としている。
サンスクリットの形態的豊かさ、複合性、自由語順性、低リソース性は、ディープラーニングソリューションを開発する上で重要な課題となっている。
我々は,サンスクリットの堅牢なNLP技術開発に不可欠な4つの基本課題を特定した。
論文 参考訳(メタデータ) (2023-08-17T06:33:33Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - End-to-End Automatic Speech Recognition model for the Sudanese Dialect [0.0]
本稿では,スーダン方言における音声認識モデルの設計の可能性を検討する。
本稿では,スーダン方言の概要と表現資源の収集作業,および質素なデータセット構築のための前処理について述べる。
設計されたモデルは、現在の認識タスクに関するいくつかの洞察を与え、平均的なラベルエラーレート73.67%に達した。
論文 参考訳(メタデータ) (2022-12-21T07:35:33Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。