論文の概要: ParsTranslit: Truly Versatile Tajik-Farsi Transliteration
- arxiv url: http://arxiv.org/abs/2510.07520v1
- Date: Wed, 08 Oct 2025 20:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.720932
- Title: ParsTranslit: Truly Versatile Tajik-Farsi Transliteration
- Title(参考訳): ParsTranslit: 真にVersatileなTajik-Farsi翻訳
- Authors: Rayyan Merchant, Kevin Tang,
- Abstract要約: ペルシア語は、アフガニスタンとイランのペルソ・アラビア語と、タジキスタンのタジク・キリル語という2つの標準を用いている。
文字の違いは、単純な1対1のマッピングを妨げ、タジキスタンとペルシャ語を話す兄弟の間で書かれたコミュニケーションと相互作用を妨げる」。
そこで本研究では,タジク・ファルシ文字翻訳のための最先端のシーケンス・ツー・シーケンスモデルを提案する。
- 参考スコア(独自算出の注目度): 6.164342356356261
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As a digraphic language, the Persian language utilizes two written standards: Perso-Arabic in Afghanistan and Iran, and Tajik-Cyrillic in Tajikistan. Despite the significant similarity between the dialects of each country, script differences prevent simple one-to-one mapping, hindering written communication and interaction between Tajikistan and its Persian-speaking ``siblings''. To overcome this, previously-published efforts have investigated machine transliteration models to convert between the two scripts. Unfortunately, most efforts did not use datasets other than those they created, limiting these models to certain domains of text such as archaic poetry or word lists. A truly usable transliteration system must be capable of handling varied domains, meaning that suck models lack the versatility required for real-world usage. The contrast in domain between data also obscures the task's true difficulty. We present a new state-of-the-art sequence-to-sequence model for Tajik-Farsi transliteration trained across all available datasets, and present two datasets of our own. Our results across domains provide clearer understanding of the task, and set comprehensive comparable leading benchmarks. Overall, our model achieves chrF++ and Normalized CER scores of 87.91 and 0.05 from Farsi to Tajik and 92.28 and 0.04 from Tajik to Farsi. Our model, data, and code are available at https://anonymous.4open.science/r/ParsTranslit-FB30/.
- Abstract(参考訳): ペルシア語は、アフガニスタンとイランのペルソ・アラビア語と、タジキスタンのタジク・キリル語という2つの標準を用いている。
各国の方言間の大きな類似性にもかかわらず、文字の違いは単純な1対1のマッピングを妨げ、タジキスタンとペルシア語話者の「兄弟」とのコミュニケーションを妨げている。
これを解決するため、以前は2つのスクリプトを変換する機械翻訳モデルについて検討していた。
残念なことに、ほとんどの努力は彼らが作成したもの以外のデータセットを使用しず、これらのモデルを古詩や単語リストのような特定のテキスト領域に制限した。
真に使用可能な文字変換システムは、さまざまなドメインを処理できなければならない。
データ間のドメイン間のコントラストも、タスクの真の難しさを曖昧にします。
そこで本研究では,タジク・ファルシ文字翻訳のための最新のシーケンス・ツー・シークエンス・モデルを提案する。
ドメイン間での結果は、タスクのより明確な理解を提供し、包括的な比較ベンチマークを設定します。
全体として、我々のモデルはChrF++と正規化CERスコア87.91と0.05をFarsiからTarjikへ、92.28と0.04をTajikからFarsiへ達成している。
私たちのモデル、データ、コードはhttps://anonymous.4open.science/r/ParsTranslit-FB30/で利用可能です。
関連論文リスト
- Connecting the Persian-speaking World through Transliteration [0.8602553195689513]
ペルソ・アラビア文字で書かれたイラン語とアフガン語の文章は、タジク語話者には読めない。
本稿では,タジク・ファルシ文字への変換器に基づくG2Pアプローチを提案し,新しい図形データセットを用いて,chrF++スコア58.70(Farsi to Tajik)と74.20(Tajik to Farsi)を達成した。
論文 参考訳(メタデータ) (2025-02-27T12:38:36Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
本稿では,トランスリテライト・マージ文字化 (Transliterate-Merge-literation, TransMI) という,シンプルだが効果的な枠組みを提案する。
TransMIは、既存のmPLMとそのトークン化ツールをトレーニングなしで利用することにより、共通のスクリプトに書き起こされるデータの強力なベースラインを作成することができる。
実験の結果,TransMIはmPLMの非翻訳データ処理能力を保ちつつ,翻訳データを効果的に処理し,スクリプト間のクロスリンガル転送を容易にすることを実証した。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - MATra: A Multilingual Attentive Transliteration System for Indian
Scripts [0.0]
本稿では,以下の5言語のうちの任意のペア間で音訳を行うことができるモデルを示す。
このモデルは最先端の言語(5つの言語の中で全てのペア)を破り、トップ1の精度スコアは80.7%に達した。
論文 参考訳(メタデータ) (2022-08-23T08:14:29Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Transfer Learning for Scene Text Recognition in Indian Languages [27.609596088151644]
本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。
インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。
我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
論文 参考訳(メタデータ) (2022-01-10T06:14:49Z) - Hate and Offensive Speech Detection in Hindi and Marathi [0.0]
それでもヘイトと攻撃的な音声検出は、データの入手が不十分なため、課題に直面している。
本研究では,ヒンディー語文とマラタイ語文のヘイトと攻撃的な音声検出について考察する。
CNNやLSTM,多言語BERT,IndicBERT,モノリンガルRoBERTaといったBERTのバリエーションなど,さまざまなディープラーニングアーキテクチャについて検討する。
我々は,変換器をベースとしたモデルが,FastText埋め込みとともに基本モデルでも最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-10-23T11:57:36Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。