論文の概要: BhashaVerse : Translation Ecosystem for Indian Subcontinent Languages
- arxiv url: http://arxiv.org/abs/2412.04351v2
- Date: Thu, 02 Jan 2025 16:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 17:39:41.035747
- Title: BhashaVerse : Translation Ecosystem for Indian Subcontinent Languages
- Title(参考訳): BhashaVerse : インド亜大陸語の翻訳生態系
- Authors: Vandan Mujadia, Dipti Misra Sharma,
- Abstract要約: 本稿では,36言語を対象とした翻訳モデルとその関連アプリケーションの開発に焦点をあてる。
スクリプトのバリエーション、音声の違い、構文の多様性といった課題に対処する。
既存の資源を活用し、並列データセットを開発し、ドメイン固有のコーパスを生成し、合成データ技術を利用するコーパス作成戦略を提案する。
- 参考スコア(独自算出の注目度): 4.1101087490516575
- License:
- Abstract: This paper focuses on developing translation models and related applications for 36 Indian languages, including Assamese, Awadhi, Bengali, Bhojpuri, Braj, Bodo, Dogri, English, Konkani, Gondi, Gujarati, Hindi, Hinglish, Ho, Kannada, Kangri, Kashmiri (Arabic and Devanagari), Khasi, Mizo, Magahi, Maithili, Malayalam, Marathi, Manipuri (Bengali and Meitei), Nepali, Oriya, Punjabi, Sanskrit, Santali, Sinhala, Sindhi (Arabic and Devanagari), Tamil, Tulu, Telugu, and Urdu. Achieving this requires parallel and other types of corpora for all 36 * 36 language pairs, addressing challenges like script variations, phonetic differences, and syntactic diversity. For instance, languages like Kashmiri and Sindhi, which use multiple scripts, demand script normalization for alignment, while low-resource languages such as Khasi and Santali require synthetic data augmentation to ensure sufficient coverage and quality. To address these challenges, this work proposes strategies for corpus creation by leveraging existing resources, developing parallel datasets, generating domain-specific corpora, and utilizing synthetic data techniques. Additionally, it evaluates machine translation across various dimensions, including standard and discourse-level translation, domain-specific translation, reference-based and reference-free evaluation, error analysis, and automatic post-editing. By integrating these elements, the study establishes a comprehensive framework to improve machine translation quality and enable better cross-lingual communication in India's linguistically diverse ecosystem.
- Abstract(参考訳): 本稿では,アサメセ語,アワディ語,ベンガリ語,ボド語,ドリ語,英語,コンカニ語,ゴンディ語,グジャラート語,ヒンディー語,ヒングリ語,ホ語,カンナダ語,カングリ語,カシュミリ語,カーシ語,ミゾ語,マガヒ語,マライティ語,マラヤラム語,マラティア語,マニプリ語,ネパール語,オリヤ語,パンジャビ語,サンスクリット語,サンスクリット語,サンスクリット語,サンスクリット語,サンスクリット語,シンハラ語,シンデヒ語,テグル語,ウルドゥー語,タミル語,トゥル語,トゥル語,トゥル語,トゥル語,トゥル語,トゥル語,ウルドゥー語を含む36言語を対象とした翻訳モデルと関連する応用について述べる。
これを達成するには、スクリプトのバリエーション、音声の違い、構文の多様性といった課題に対処する36 * 36言語ペアすべてに対して、並列および他のタイプのコーパスが必要です。
例えば、複数のスクリプトを使用するKashmiriやSindhiのような言語はアライメントのためにスクリプトの正規化を要求するが、KhasiやSantaliのような低リソースの言語は十分なカバレッジと品質を確保するために合成データ拡張を必要とする。
これらの課題に対処するために、既存のリソースを活用し、並列データセットを開発し、ドメイン固有のコーパスを生成し、合成データ技術を利用するコーパス作成戦略を提案する。
さらに、標準および談話レベルの翻訳、ドメイン固有の翻訳、参照ベースおよび参照なしの評価、エラー解析、自動後編集など、さまざまな側面にわたる機械翻訳を評価する。
これらの要素を統合することで、インドの言語学的に多様なエコシステムにおいて、機械翻訳の品質を改善し、言語間コミュニケーションを改善するための包括的な枠組みを確立する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。