論文の概要: Generalists vs. Specialists: Evaluating Large Language Models for Urdu
- arxiv url: http://arxiv.org/abs/2407.04459v2
- Date: Sat, 7 Sep 2024 15:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:51:43.184385
- Title: Generalists vs. Specialists: Evaluating Large Language Models for Urdu
- Title(参考訳): Generalists vs. Specialists: Urduの大規模言語モデルの評価
- Authors: Samee Arif, Abdul Hameed Azeemi, Agha Ali Raza, Awais Athar,
- Abstract要約: 我々は, GPT-4-Turbo と Llama-3-8b-Instruct の汎用事前学習モデルと, 特定のタスクを微調整した特別目的モデルとの比較を行った。
我々は、これらのモデルの性能をウルドゥー語で評価するために、7つの分類と6つの世代タスクに焦点を当てる。
特殊目的モデルは、様々なタスクにおいて汎用モデルより一貫して優れていることが判明した。
- 参考スコア(独自算出の注目度): 4.8539869147159616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we compare general-purpose pretrained models, GPT-4-Turbo and Llama-3-8b-Instruct with special-purpose models fine-tuned on specific tasks, XLM-Roberta-large, mT5-large, and Llama-3-8b-Instruct. We focus on seven classification and six generation tasks to evaluate the performance of these models on Urdu language. Urdu has 70 million native speakers, yet it remains underrepresented in Natural Language Processing (NLP). Despite the frequent advancements in Large Language Models (LLMs), their performance in low-resource languages, including Urdu, still needs to be explored. We also conduct a human evaluation for the generation tasks and compare the results with the evaluations performed by GPT-4-Turbo and Llama-3-8b-Instruct. We find that special-purpose models consistently outperform general-purpose models across various tasks. We also find that the evaluation done by GPT-4-Turbo for generation tasks aligns more closely with human evaluation compared to the evaluation by Llama-3-8b-Instruct. This paper contributes to the NLP community by providing insights into the effectiveness of general and specific-purpose LLMs for low-resource languages.
- Abstract(参考訳): 本稿では,汎用事前学習モデルであるGPT-4-TurboとLlama-3-8b-Instructを,XLM-Roberta-large,mT5-large,Llama-3-8b-Instructといった特殊目的モデルと比較する。
我々は、これらのモデルの性能をウルドゥー語で評価するために、7つの分類と6つの世代タスクに焦点を当てる。
Urduには7000万人のネイティブスピーカーがあるが、Natural Language Processing(NLP)では表現されていない。
LLM(Large Language Models)の頻繁な進歩にもかかわらず、Urduを含む低リソース言語のパフォーマンスを調査する必要がある。
また, GPT-4-Turbo と Llama-3-8b-Instruct による評価結果と比較した。
特殊目的モデルは、様々なタスクにおいて汎用モデルより一貫して優れていることが判明した。
また,生成タスクに対する GPT-4-Turbo による評価は,Llama-3-8b-Instruct による評価に比べ,人間による評価と密接に一致していることがわかった。
本稿では,低リソース言語に対する汎用LLMの有効性に関する知見を提供することで,NLPコミュニティに貢献する。
関連論文リスト
- Unraveling the Capabilities of Language Models in News Summarization [0.0]
この研究は、ニュース要約タスクのより小さなものに焦点を当てた、最新の20の言語モデルの包括的なベンチマークを提供する。
本研究では,ゼロショットと少数ショットの学習設定に着目し,ロバストな評価手法を適用した。
GPT-3.5-Turbo と GPT-4 の優れた性能を強調した。
論文 参考訳(メタデータ) (2025-01-30T04:20:16Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - Taqyim: Evaluating Arabic NLP Tasks Using ChatGPT Models [6.145834902689888]
大規模言語モデル(LLM)は、微調整を必要とせず、様々な下流タスクにおける印象的なパフォーマンスを示している。
英語に比べて訓練率が低いにもかかわらず、これらのモデルは他の言語でも顕著な能力を示す。
本研究では,7つの異なるNLPタスクにおいて,GPT-3.5およびGPT-4モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-28T15:54:29Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。