論文の概要: Beyond Specialization: Benchmarking LLMs for Transliteration of Indian Languages
- arxiv url: http://arxiv.org/abs/2505.19851v1
- Date: Mon, 26 May 2025 11:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.389796
- Title: Beyond Specialization: Benchmarking LLMs for Transliteration of Indian Languages
- Title(参考訳): スペシャライゼーションを超えて:インドの言語の文字化のためのLLMのベンチマーク
- Authors: Gulfarogh Azam, Mohd Sadique, Saif Ali, Mohammad Nadeem, Erik Cambria, Shahab Saquib Sohail, Mohammad Sultan Alam,
- Abstract要約: 翻訳は多言語自然言語処理において重要な役割を担っている。
大規模言語モデルにおける最近の進歩は、汎用モデルがこのタスクにおいて、明示的なタスク固有の訓練を伴わずに優れている可能性を示唆している。
この研究は、GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, Mistral-Large against IndicXlit, a state-of-the-art transliteration model, across 10 major Indian languagesなど、著名なLCMの性能を体系的に評価する。
- 参考スコア(独自算出の注目度): 19.988253285050256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transliteration, the process of mapping text from one script to another, plays a crucial role in multilingual natural language processing, especially within linguistically diverse contexts such as India. Despite significant advancements through specialized models like IndicXlit, recent developments in large language models suggest a potential for general-purpose models to excel at this task without explicit task-specific training. The current work systematically evaluates the performance of prominent LLMs, including GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, and Mistral-Large against IndicXlit, a state-of-the-art transliteration model, across ten major Indian languages. Experiments utilized standard benchmarks, including Dakshina and Aksharantar datasets, with performance assessed via Top-1 Accuracy and Character Error Rate. Our findings reveal that while GPT family models generally outperform other LLMs and IndicXlit for most instances. Additionally, fine-tuning GPT-4o improves performance on specific languages notably. An extensive error analysis and robustness testing under noisy conditions further elucidate strengths of LLMs compared to specialized models, highlighting the efficacy of foundational models for a wide spectrum of specialized applications with minimal overhead.
- Abstract(参考訳): あるスクリプトから別のスクリプトにテキストをマッピングするプロセスである翻訳は、特にインドのような言語学的に多様な文脈において、多言語自然言語処理において重要な役割を担っている。
IndicXlitのような特殊なモデルによる大幅な進歩にもかかわらず、近年の大規模言語モデルの発展は、タスク固有のトレーニングを明示することなく、このタスクを最適化する汎用モデルの可能性を示している。
GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, Mistral-Large against IndicXlit, a state-of-the-art transliteration model, across 10 major Indian languages。
実験では、DakshinaやAksharantarといった標準ベンチマークを使用し、Top-1の精度とキャラクタエラー率でパフォーマンスを評価した。
以上の結果から, GPT ファミリーモデルが他の LLM や IndicXlit よりも優れていることが示唆された。
さらに、微調整のGPT-4oは特定の言語の性能を特に向上させる。
ノイズの多い条件下での広範な誤差解析とロバストネス試験により、LLMの強度は特殊化モデルと比較してさらに解明され、最小限のオーバーヘッドを持つ広範囲の特殊化アプリケーションに対する基礎モデルの有効性が強調された。
関連論文リスト
- When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - Checklist Engineering Empowers Multilingual LLM Judges [12.64438771302935]
Checklist Engineering ベースの LLM-as-a-Judge (CE-Judge) は、オープンソースのモデルによる多言語評価にチェックリストの直観を使用する、トレーニング不要のフレームワークである。
我々の手法は一般にベースラインを超え、GPT-4oモデルと同等に機能する。
論文 参考訳(メタデータ) (2025-07-09T12:03:06Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages [0.0]
本稿では,12の大規模言語モデル (LLM) が使用するトークンの包括的評価を行った。
SUTRAトークンライザは、いくつかのIndic特化モデルを含む他のモデルよりも優れており、14言語で優れている。
本研究は,多言語およびインデックス中心モデルを対象としたトークン化戦略の開発において重要であることを示す。
論文 参考訳(メタデータ) (2024-11-19T05:37:17Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - LLM-powered Data Augmentation for Enhanced Cross-lingual Performance [24.20730298894794]
本稿では,Large Language Models (LLMs) を利用したコモンセンス推論データセットにおけるデータ拡張の可能性について検討する。
これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4といういくつかのLCMを利用する。
合成データを用いて,小型多言語モデルmBERTとXLMRの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。