論文の概要: NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark
Dataset for Generative Language Models in Norwegian
- arxiv url: http://arxiv.org/abs/2312.01314v1
- Date: Sun, 3 Dec 2023 08:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:41:43.606213
- Title: NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark
Dataset for Generative Language Models in Norwegian
- Title(参考訳): NLEBench+NorGLM:ノルウェーにおける生成言語モデルのための総合的経験分析とベンチマークデータセット
- Authors: Peng Liu, Lemei Zhang, Terje Nissen Farup, Even W. Lauvrak, Jon Espen
Ingvaldsen, Simen Eide, Jon Atle Gulla and Zhirong Yang
- Abstract要約: 低リソース言語であるノルウェー語で自然言語生成能力を評価するためのベンチマークであるNLEBenchを紹介する。
NLEBenchは、ニュースストーリーテリング、要約、オープンドメイン会話、自然言語理解、命令の微調整、毒性、バイアス評価から、自己計算されたChain-of-Thought調査まで、現実世界のNLPタスクスイートを含んでいる。
本稿では,多様なパラメータスケールとトランスフォーマーに基づくアーキテクチャで開発されたノルウェー生成言語モデル(NorGLM)についても紹介する。
- 参考スコア(独自算出の注目度): 4.236983772147863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Generative Language Models (GLMs) have transformed
Natural Language Processing (NLP) by showcasing the effectiveness of the
"pre-train, prompt, and predict" paradigm in utilizing pre-trained GLM
knowledge for diverse applications. Despite their potential, these capabilities
lack adequate quantitative characterization due to the absence of comprehensive
benchmarks, particularly for low-resource languages. Existing low-resource
benchmarks focus on discriminative language models like BERT, neglecting the
evaluation of generative language models. Moreover, current benchmarks often
overlook measuring generalization performance across multiple tasks, a crucial
metric for GLMs.
To bridge these gaps, we introduce NLEBench, a comprehensive benchmark
tailored for evaluating natural language generation capabilities in Norwegian,
a low-resource language. We use Norwegian as a case study to explore whether
current GLMs and benchmarks in mainstream languages like English can reveal the
unique characteristics of underrepresented languages. NLEBench encompasses a
suite of real-world NLP tasks ranging from news storytelling, summarization,
open-domain conversation, natural language understanding, instruction
fine-tuning, toxicity and bias evaluation, to self-curated Chain-of-Thought
investigation. It features two high-quality, human-annotated datasets: an
instruction dataset covering traditional Norwegian cultures, idioms, slang, and
special expressions, and a document-grounded multi-label dataset for topic
classification, question answering, and summarization. This paper also
introduces foundational Norwegian Generative Language Models (NorGLMs)
developed with diverse parameter scales and Transformer-based architectures.
Systematic evaluations on the proposed benchmark suite provide insights into
the capabilities and scalability of NorGLMs across various downstream tasks.
- Abstract(参考訳): ジェネレーティブ言語モデル(GLM)の最近の進歩は、様々な用途に事前訓練されたGLM知識を活用する上での「事前訓練、迅速、予測」パラダイムの有効性を示すことによって、自然言語処理(NLP)を変革している。
その可能性にもかかわらず、これらの能力は包括的なベンチマーク、特に低リソース言語が欠如しているため、十分な量的特徴付けを欠いている。
既存の低リソースベンチマークはbertのような判別言語モデルにフォーカスしており、生成言語モデルの評価を無視している。
さらに、現在のベンチマークでは、複数のタスクにわたる一般化パフォーマンスの測定を見落としていることが多い。
これらのギャップを埋めるために,低リソース言語であるノルウェー語で自然言語生成能力を評価するための総合ベンチマークであるnlebenchを紹介する。
我々はノルウェー語をケーススタディとして用いて、英語などの主流言語における現在のGLMとベンチマークが、表現不足言語の特徴を明らかにすることができるかどうかを探っている。
NLEBenchは、ニュースストーリーテリング、要約、オープンドメインの会話、自然言語理解、命令の微調整、毒性、バイアス評価など、現実のNLPタスクのスイートを含んでいる。
伝統的なノルウェー文化、イディオム、スラング、特殊表現をカバーする命令データセットと、トピック分類、質問応答、要約のための文書化されたマルチラベルデータセットである。
本稿では,多様なパラメータスケールとトランスフォーマーに基づくアーキテクチャで開発されたノルウェー生成言語モデル(NorGLM)についても紹介する。
提案したベンチマークスイートのシステム評価は、さまざまなダウンストリームタスクにわたるNorGLMの機能とスケーラビリティに関する洞察を提供する。
関連論文リスト
- Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages [5.376127198656944]
1) LLM支援データセット生成, (2) 機械翻訳, (3) ネイティブ話者による人書きデータから, 文化的に曖昧なストーリー理解データセットを構築するための3つのデータセット作成戦略を比較した。
以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles [8.083472758337559]
ノルウェーのニュース記事の高品質な人間によるサマリーのデータセットを紹介する。
このデータセットは、生成言語モデルの抽象的な要約能力のベンチマークを目的としている。
論文 参考訳(メタデータ) (2025-01-13T22:08:29Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。