Fugu-MT 論文翻訳(概要): LLM Probe: Evaluating LLMs for Low-Resource Languages

論文の概要: LLM Probe: Evaluating LLMs for Low-Resource Languages

arxiv url: http://arxiv.org/abs/2603.29517v1
Date: Tue, 31 Mar 2026 10:03:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:03.475677
Title: LLM Probe: Evaluating LLMs for Low-Resource Languages
Title（参考訳）: LLM Probe:低リソース言語のためのLLMの評価
Authors: Hailay Kidu Teklehaymanot, Gebrearegawi Gebremariam, Wolfgang Nejdl,
Abstract要約: 本稿では,低リソース言語における大規模言語モデル (LLM) の言語能力を評価するための語彙ベースアセスメントフレームワークを提案する。このフレームワークは、語彙アライメント、音声認識、モルフォシンタクティック・プロービング、翻訳精度の4つの領域にわたるモデルを分析する。
参考スコア（独自算出の注目度）: 6.177998679139308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite rapid advances in large language models (LLMs), their linguistic abilities in low-resource and morphologically rich languages are still not well understood due to limited annotated resources and the absence of standardized evaluation frameworks. This paper presents LLM Probe, a lexicon-based assessment framework designed to systematically evaluate the linguistic skills of LLMs in low-resource language environments. The framework analyzes models across four areas of language understanding: lexical alignment, part-of-speech recognition, morphosyntactic probing, and translation accuracy. To illustrate the framework, we create a manually annotated benchmark dataset using a low-resource Semitic language as a case study. The dataset comprises bilingual lexicons with linguistic annotations, including part-of-speech tags, grammatical gender, and morphosyntactic features, which demonstrate high inter-annotator agreement to ensure reliable annotations. We test a variety of models, including causal language models and sequence-to-sequence architectures. The results reveal notable differences in performance across various linguistic tasks: sequence-to-sequence models generally excel in morphosyntactic analysis and translation quality, whereas causal models demonstrate strong performance in lexical alignment but exhibit weaker translation accuracy. Our results emphasize the need for linguistically grounded evaluation to better understand LLM limitations in low-resource settings. We release LLM Probe and the accompanying benchmark dataset as open-source tools to promote reproducible benchmarking and to support the development of more inclusive multilingual language technologies.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩にもかかわらず、その低リソースおよび形態的に豊かな言語における言語能力は、限られたアノテートリソースと標準化された評価フレームワークがないために、まだよく理解されていない。本稿では,低リソース言語環境におけるLLMの言語的スキルを体系的に評価するための語彙ベースアセスメントフレームワークであるLLM Probeを提案する。このフレームワークは、語彙アライメント、音声認識、モルフォシンタクティック・プロービング、翻訳精度の4つの領域にわたるモデルを分析する。このフレームワークを説明するために,低リソースのセマンティック言語を用いた手動注釈付きベンチマークデータセットをケーススタディとして作成した。このデータセットは、音声タグ、文法的性別、形態素合成特徴を含む言語アノテーションを含むバイリンガル語彙を含み、信頼性の高いアノテーションを保証するためのアノテーション間の合意が高いことを示す。因果言語モデルやシーケンス・ツー・シーケンスアーキテクチャなど,さまざまなモデルをテストする。シーケンス・ツー・シーケンス・モデルは通常、形態素解析と翻訳品質に優れ、因果モデルは語彙的アライメントにおいて強い性能を示すが、より弱い翻訳精度を示す。本研究は,低リソース環境におけるLLMの限界をよりよく理解するために,言語的に基礎づけた評価の必要性を強調した。 LLM Probeとそれに伴うベンチマークデータセットをオープンソースツールとしてリリースし、再現可能なベンチマークを促進し、より包括的な多言語言語技術の開発を支援する。

関連論文リスト

SemBench: A Universal Semantic Framework for LLM Evaluation [5.620203684062621]
SemBenchは,Large Language Models(LLMs)のセマンティック能力を評価するための,合成ベンチマークを自動的に生成するフレームワークである。我々はセムベンチを3つの言語(英語、スペイン語、バスク語)で評価する。その結果,SemBenchから得られたランキングは,標準WiCデータセットから得られたランキングと強く相関していることがわかった。
論文参考訳（メタデータ） (2026-03-12T08:56:13Z)
Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages [0.5949779668853555]
大規模言語モデル(LLM)は日常的に言語使用タスクに基づいて評価されるが、言語構造に関する知識はいまだに理解されていない。精度とマクロF1とマジョリティクラス,チャンスベースラインを併用して,言語領域や言語関連因子による全体的なパフォーマンスを分析し,その変動について検討する。 GPT-4oは最適だが適度な精度(0.367)であり,オープンソースモデルは遅れている。
論文参考訳（メタデータ） (2026-02-02T14:49:56Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Generating bilingual example sentences with large language models as lexicography assistants [2.6550899846546527]
本稿では,資源レベルの異なる言語におけるバイリンガル辞書の例文の生成と評価におけるLLMの性能について検討する。 GDEX(Good Dictionary Example)基準に対するLCM生成例の品質評価を行った。
論文参考訳（メタデータ） (2024-10-04T06:45:48Z)
Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。