論文の概要: Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks
- arxiv url: http://arxiv.org/abs/2405.15453v1
- Date: Fri, 24 May 2024 11:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 14:42:18.418964
- Title: Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks
- Title(参考訳): Urdu NLPタスクにおける事前学習型大言語モデルのポテンシャルのベンチマーク
- Authors: Munief Hassan Tahir, Sana Shams, Layba Fiaz, Farah Adeeba, Sarmad Hussain,
- Abstract要約: 多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。
本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。
実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) pre-trained on multilingual data have revolutionized natural language processing research, by transitioning from languages and task specific model pipelines to a single model adapted on a variety of tasks. However majority of existing multilingual NLP benchmarks for LLMs provide evaluation data in only few languages with little linguistic diversity. In addition these benchmarks lack quality assessment against the respective state-of the art models. This study presents an in-depth examination of prominent LLMs; GPT-3.5-turbo, Llama2-7B-Chat, Bloomz 7B1 and Bloomz 3B, across 14 tasks using 15 Urdu datasets, in a zero-shot setting, and their performance against state-of-the-art (SOTA) models, has been compared and analysed. Our experiments show that SOTA models surpass all the encoder-decoder pre-trained language models in all Urdu NLP tasks with zero-shot learning. Our results further show that LLMs with fewer parameters, but more language specific data in the base model perform better than larger computational models, but low language data.
- Abstract(参考訳): 多言語データに事前訓練された大規模言語モデル(LLM)は、言語やタスク固有のモデルパイプラインから、さまざまなタスクに適応した単一モデルに移行することで、自然言語処理の研究に革命をもたらした。
しかし、LLMの既存の多言語NLPベンチマークのほとんどは、言語多様性の少ない少数の言語で評価データを提供している。
さらに、これらのベンチマークは、それぞれのアートモデルに対する品質評価を欠いている。
GPT-3.5-turbo, Llama2-7B-Chat, Bloomz 7B1, Bloomz 3Bの4つのタスクに対して, ゼロショット設定で15のUrduデータセットを用いて, その性能を比較し, 解析した。
実験の結果, ゼロショット学習を施した全てのUrdu NLPタスクにおいて, SOTAモデルはエンコーダ・デコーダの事前学習言語モデルを上回ることがわかった。
さらに,LLMのパラメータは少ないが,ベースモデルにおける言語特化データの方が,より大きな計算モデルよりも優れ,低言語データより優れていることを示す。
関連論文リスト
- Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data [39.54285525397304]
We present FuxiTranyu, a open-source multilingual model for large language model (LLMs)。
ベースモデルであるFuxiTranyu-8Bは80億のパラメータを持ち、微妙にバランスの取れた多言語データに基づいてスクラッチから訓練されている。
幅広い多言語ベンチマークの実験は、フキシトラユの競争性能を実証している。
論文 参考訳(メタデータ) (2024-08-12T16:34:56Z) - Investigating the translation capabilities of Large Language Models trained on parallel data only [1.5974665548135587]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの幅広い範囲で例外的な習熟性を示している。
PLUMEは,カタルーニャ語中心の並列例に特化して訓練された語彙サイズ(32k,128k,256k)の異なる3つの2B LLMのコレクションである。
これらのモデルは、16の教師付き翻訳方向と56のゼロショット上で、以前のエンコーダ・デコーダアーキテクチャと互換性がある。
論文 参考訳(メタデータ) (2024-06-13T14:08:56Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。
私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。
また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。