論文の概要: Beyond Specialization: Benchmarking LLMs for Transliteration of Indian Languages
- arxiv url: http://arxiv.org/abs/2505.19851v1
- Date: Mon, 26 May 2025 11:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.389796
- Title: Beyond Specialization: Benchmarking LLMs for Transliteration of Indian Languages
- Title(参考訳): スペシャライゼーションを超えて:インドの言語の文字化のためのLLMのベンチマーク
- Authors: Gulfarogh Azam, Mohd Sadique, Saif Ali, Mohammad Nadeem, Erik Cambria, Shahab Saquib Sohail, Mohammad Sultan Alam,
- Abstract要約: 翻訳は多言語自然言語処理において重要な役割を担っている。
大規模言語モデルにおける最近の進歩は、汎用モデルがこのタスクにおいて、明示的なタスク固有の訓練を伴わずに優れている可能性を示唆している。
この研究は、GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, Mistral-Large against IndicXlit, a state-of-the-art transliteration model, across 10 major Indian languagesなど、著名なLCMの性能を体系的に評価する。
- 参考スコア(独自算出の注目度): 19.988253285050256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transliteration, the process of mapping text from one script to another, plays a crucial role in multilingual natural language processing, especially within linguistically diverse contexts such as India. Despite significant advancements through specialized models like IndicXlit, recent developments in large language models suggest a potential for general-purpose models to excel at this task without explicit task-specific training. The current work systematically evaluates the performance of prominent LLMs, including GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, and Mistral-Large against IndicXlit, a state-of-the-art transliteration model, across ten major Indian languages. Experiments utilized standard benchmarks, including Dakshina and Aksharantar datasets, with performance assessed via Top-1 Accuracy and Character Error Rate. Our findings reveal that while GPT family models generally outperform other LLMs and IndicXlit for most instances. Additionally, fine-tuning GPT-4o improves performance on specific languages notably. An extensive error analysis and robustness testing under noisy conditions further elucidate strengths of LLMs compared to specialized models, highlighting the efficacy of foundational models for a wide spectrum of specialized applications with minimal overhead.
- Abstract(参考訳): あるスクリプトから別のスクリプトにテキストをマッピングするプロセスである翻訳は、特にインドのような言語学的に多様な文脈において、多言語自然言語処理において重要な役割を担っている。
IndicXlitのような特殊なモデルによる大幅な進歩にもかかわらず、近年の大規模言語モデルの発展は、タスク固有のトレーニングを明示することなく、このタスクを最適化する汎用モデルの可能性を示している。
GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, Mistral-Large against IndicXlit, a state-of-the-art transliteration model, across 10 major Indian languages。
実験では、DakshinaやAksharantarといった標準ベンチマークを使用し、Top-1の精度とキャラクタエラー率でパフォーマンスを評価した。
以上の結果から, GPT ファミリーモデルが他の LLM や IndicXlit よりも優れていることが示唆された。
さらに、微調整のGPT-4oは特定の言語の性能を特に向上させる。
ノイズの多い条件下での広範な誤差解析とロバストネス試験により、LLMの強度は特殊化モデルと比較してさらに解明され、最小限のオーバーヘッドを持つ広範囲の特殊化アプリケーションに対する基礎モデルの有効性が強調された。
関連論文リスト
- Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages [0.0]
本稿では,12の大規模言語モデル (LLM) が使用するトークンの包括的評価を行った。
SUTRAトークンライザは、いくつかのIndic特化モデルを含む他のモデルよりも優れており、14言語で優れている。
本研究は,多言語およびインデックス中心モデルを対象としたトークン化戦略の開発において重要であることを示す。
論文 参考訳(メタデータ) (2024-11-19T05:37:17Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - LLM-powered Data Augmentation for Enhanced Cross-lingual Performance [24.20730298894794]
本稿では,Large Language Models (LLMs) を利用したコモンセンス推論データセットにおけるデータ拡張の可能性について検討する。
これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4といういくつかのLCMを利用する。
合成データを用いて,小型多言語モデルmBERTとXLMRの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。