論文の概要: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2510.12807v1
- Date: Sun, 05 Oct 2025 10:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 05:23:07.161172
- Title: Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning
- Title(参考訳): Zero-ShotとFew-Shot学習におけるオープンソースのペルシア語大言語モデルのベンチマーク
- Authors: Mahdi Cherakhloo, Arash Abbasi, Mohammad Saeid Sarafraz, Bijan Vosoughi Vahdat,
- Abstract要約: 本稿では,ペルシャ自然言語処理タスクのためのオープンソースの大規模言語モデル (LLM) のベンチマークを示す。
我々は、感情分析、名前付きエンティティ認識、読書理解、質問応答など、様々なタスクのモデルを評価する。
その結果、Gemma 2は両方の学習パラダイムにおいて、ほぼすべてのタスクで、他のモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous languages; however, their effectiveness in low-resource languages like Persian requires thorough investigation. This paper presents a comprehensive benchmark of several open-source LLMs for Persian Natural Language Processing (NLP) tasks, utilizing both zero-shot and few-shot learning paradigms. We evaluate models across a range of tasks including sentiment analysis, named entity recognition, reading comprehension, and question answering, using established Persian datasets such as ParsiNLU and ArmanEmo. Our methodology encompasses rigorous experimental setups for both zero-shot and few-shot scenarios, employing metrics such as Accuracy, F1-score, BLEU, and ROUGE for performance evaluation. The results reveal that Gemma 2 consistently outperforms other models across nearly all tasks in both learning paradigms, with particularly strong performance in complex reasoning tasks. However, most models struggle with token-level understanding tasks like Named Entity Recognition, highlighting specific challenges in Persian language processing. This study contributes to the growing body of research on multilingual LLMs, providing valuable insights into their performance in Persian and offering a benchmark for future model development.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの言語で顕著な能力を示しているが、ペルシャ語のような低リソース言語での有効性は徹底的な調査を必要とする。
本稿では,ペルシャ自然言語処理(NLP)タスクのためのオープンソースのLLMの総合的なベンチマークを行い,ゼロショットと少数ショットの学習パラダイムを併用した。
本稿では,ParsiNLUやArmanEmoといったペルシャ語データセットを用いて,感情分析,エンティティ認識,読解,質問応答など,さまざまなタスクのモデルを評価する。
提案手法は,ゼロショットシナリオと少数ショットシナリオの両方に対する厳密な実験設定を包含し,精度,F1スコア,BLEU,ROUGEなどの指標を用いて性能評価を行う。
その結果、Gemma 2は、両方の学習パラダイムにおいて、ほぼすべてのタスクで、特に複雑な推論タスクにおいて、他のモデルよりも一貫して優れています。
しかし、ほとんどのモデルは、名前付きエンティティ認識のようなトークンレベルの理解タスクに苦労し、ペルシア語処理における特定の課題を強調している。
本研究は,多言語LLMの研究の進展に寄与し,ペルシャ語におけるその性能に関する貴重な知見を提供し,将来のモデル開発のためのベンチマークを提供する。
関連論文リスト
- Multilingual Definition Modeling [1.9409995498330783]
私たちは4つの新言語(スペイン語、フランス語、ポルトガル語、ドイツ語)に単言語辞書データを使用します。
このデータに微調整を施すと, 単文単語の定義モデル上で, 事前学習した多言語言語モデルの性能を検証した。
結果から,多言語モデルでは英語のオンペア化が可能であるが,言語間相乗効果の可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-02T09:48:37Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks [5.439505575097552]
本研究では,HotpotQAデータセットを用いて,大規模言語モデルのドメイン固有タスク実行能力を評価する。
このタスクは、これらのモデルの言語理解能力を評価するための挑戦的なベンチマークとなる。
その結果,これらの手法と大規模言語モデルを統合することで,F1スコアの最大4%の改善が期待できることがわかった。
論文 参考訳(メタデータ) (2025-01-10T18:44:06Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。