論文の概要: Scripts Through Time: A Survey of the Evolving Role of Transliteration in NLP
- arxiv url: http://arxiv.org/abs/2604.18722v1
- Date: Mon, 20 Apr 2026 18:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.415497
- Title: Scripts Through Time: A Survey of the Evolving Role of Transliteration in NLP
- Title(参考訳): 経時的スクリプト:NLPにおける翻訳の役割に関する調査
- Authors: Thanmay Jayakumar, Deepon Halder, Raj Dabre,
- Abstract要約: NLPにおける言語間の変換はしばしばスクリプトバリアによって妨げられ、書記システムの違いは言語間の移動学習を阻害する。
文字変換のプロセスである文字変換は、語彙重なりを増し、このギャップを埋める強力なテクニックとして登場した。
- 参考スコア(独自算出の注目度): 16.32377980108084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual transfer in NLP is often hindered by the ``script barrier'' where differences in writing systems inhibit transfer learning between languages. Transliteration, the process of converting the script, has emerged as a powerful technique to bridge this gap by increasing lexical overlap. This paper provides a comprehensive survey of the application of transliteration in cross-lingual NLP. We present a taxonomy of key motivations to utilize transliterations in language models, and provide an overview of different approaches of incorporating transliterations as input. We analyze the evolution and effectiveness of these methods, discussing the critical trade-offs involved, and contextualize their need in modern LLMs. The review explores various settings that show how transliteration is beneficial, including handling code-mixed text, leveraging language family relatedness, and pragmatic gains in inference efficiency. Based on this analysis, we provide concrete recommendations for researchers on selecting and implementing the most appropriate transliteration strategy based on their specific language, task, and resource constraints.
- Abstract(参考訳): NLPにおける言語間の変換は、書記システムの違いが言語間の伝達学習を阻害する 'script barrier'' によって妨げられることが多い。
文字変換のプロセスである文字変換は、語彙重なりを増し、このギャップを埋める強力なテクニックとして登場した。
本稿では,言語間NLPにおける音読化の適用に関する総合的な調査を行う。
本稿では,言語モデルにおける音訳活用のモチベーションの分類について述べるとともに,音訳を入力として組み込むための様々なアプローチの概要について述べる。
我々はこれらの手法の進化と有効性を分析し、関連する重要なトレードオフについて議論し、現代のLLMにおけるそれらのニーズを文脈的に分析する。
このレビューでは、コード混合テキストの扱い、言語家族関係の活用、推論効率の実用的向上など、翻訳がいかに有用かを示すさまざまな設定について検討している。
この分析に基づき、研究者は特定の言語、タスク、リソース制約に基づいて、最も適切な文字化戦略を選択し、実装することを推奨する。
関連論文リスト
- Predicate-Argument Structure Divergences in Chinese and English Parallel Sentences and their Impact on Language Transfer [6.834698677197089]
言語間自然言語処理は、低リソース環境で実用的なソリューションを提供する。
言語の違いは、特に類型的には遠い言語の間で、言語移動を妨げる。
本稿では、中国語と英語の同時文における述語句構造の分析について述べる。
論文 参考訳(メタデータ) (2025-11-12T22:55:29Z) - Enhancing Entertainment Translation for Indian Languages using Adaptive Context, Style and LLMs [3.55026004901472]
本稿では,現在のセッションの文脈とスタイルを推定するアルゴリズムを導入し,これらの推定値を用いてLLM(Large Language Model)を誘導し,高品質な翻訳を生成するプロンプトを生成する。
本手法はLLMに依存しない言語であり,汎用ツールである。
論文 参考訳(メタデータ) (2024-12-29T11:33:51Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。
提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Multilingual Lexical Simplification via Paraphrase Generation [19.275642346073557]
パラフレーズ生成による新しい多言語LS法を提案する。
パラフレーズ処理は多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。
提案手法は,英語,スペイン語,ポルトガル語で,BERT法とゼロショットGPT3法を大きく上回る。
論文 参考訳(メタデータ) (2023-07-28T03:47:44Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。