論文の概要: BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls
of Large Language Models on Bengali NLP
- arxiv url: http://arxiv.org/abs/2309.13173v1
- Date: Fri, 22 Sep 2023 20:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:54:35.490915
- Title: BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls
of Large Language Models on Bengali NLP
- Title(参考訳): BenLLMEval: Bengali NLPにおける大規模言語モデルの可能性と落とし穴に関する総合的な評価
- Authors: Mohsinul Kabir, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Mir
Tafseer Nayeem, M Saiful Bari, Enamul Hoque
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーの1つとして登場した。
低リソースバングラ語に対するLLMの性能評価を行った。
- 参考スコア(独自算出の注目度): 18.397122444903847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have emerged as one of the most important
breakthroughs in natural language processing (NLP) for their impressive skills
in language generation and other language-specific tasks. Though LLMs have been
evaluated in various tasks, mostly in English, they have not yet undergone
thorough evaluation in under-resourced languages such as Bengali (Bangla). In
this paper, we evaluate the performance of LLMs for the low-resourced Bangla
language. We select various important and diverse Bangla NLP tasks, such as
abstractive summarization, question answering, paraphrasing, natural language
inference, text classification, and sentiment analysis for zero-shot evaluation
with ChatGPT, LLaMA-2, and Claude-2 and compare the performance with
state-of-the-art fine-tuned models. Our experimental results demonstrate an
inferior performance of LLMs for different Bangla NLP tasks, calling for
further effort to develop better understanding of LLMs in low-resource
languages like Bangla.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)において、言語生成やその他の言語固有のタスクにおける印象的なスキルにおいて最も重要なブレークスルーの1つとなっている。
LLMは様々なタスク、主に英語で評価されてきたが、ベンガル語 (Bangla) のような未資源言語では十分に評価されていない。
本稿では,低リソースのバングラ語に対するLLMの性能評価を行う。
本稿では,ChatGPT,LLaMA-2,Claude-2を用いたゼロショット評価において,抽象的要約,質問応答,パラフレージング,自然言語推論,テキスト分類,感情分析などの重要かつ多様なBangla NLPタスクを選択し,その性能を最先端の微調整モデルと比較する。
実験の結果,Bangla NLPタスクに対するLLMの性能は劣っていることが示され,Banglaのような低リソース言語におけるLLMの理解を深めるためのさらなる取り組みが求められた。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings [12.507989493130175]
GPT-4, Llama 2 および Gemini は, 東南アジアの他の低リソース言語と比較して, 英語での有効性が評価されている。
GPT-4はLlama 2とGeminiを5つのプロンプト設定と全言語で上回ったことを示唆している。
論文 参考訳(メタデータ) (2024-10-17T02:12:30Z) - Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings [12.507989493130175]
大規模言語モデル (LLM) は自然言語処理 (NLP) に大きな関心を寄せている。
近年の研究では、低リソース言語におけるLLMの限界が強調されている。
英語からバングラ語、ヒンディー語、ウルドゥー語に翻訳することで、感情と憎悪の音声タスクのデータセットを提示する。
論文 参考訳(メタデータ) (2024-08-05T05:09:23Z) - Too Late to Train, Too Early To Use? A Study on Necessity and Viability of Low-Resource Bengali LLMs [2.309018557701645]
低リソース言語専用の英語指向の大規模言語モデルの必要性について検討する。
オープンウェイトおよびクローズドソースLLMの性能を、微調整エンコーダデコーダモデルと比較する。
LLMは一般的に推論タスクに優れるが,Bengaliスクリプト生成を必要とするタスクのパフォーマンスは不整合である。
論文 参考訳(メタデータ) (2024-06-29T11:50:16Z) - Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である
本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文 参考訳(メタデータ) (2024-05-05T13:57:05Z) - Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - High-quality Data-to-Text Generation for Severely Under-Resourced
Languages with Out-of-the-box Large Language Models [5.632410663467911]
我々は、事前訓練された大規模言語モデル(LLM)が、アンダーリソース言語のパフォーマンスギャップを埋める可能性について検討する。
LLM は,低リソース言語における技術の現状を,かなりのマージンで容易に設定できることがわかった。
全ての言語について、人間の評価は最高のシステムで人間と同等のパフォーマンスを示すが、BLEUのスコアは英語に比べて崩壊する。
論文 参考訳(メタデータ) (2024-02-19T16:29:40Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。