論文の概要: NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark
Dataset for Generative Language Models in Norwegian
- arxiv url: http://arxiv.org/abs/2312.01314v1
- Date: Sun, 3 Dec 2023 08:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:41:43.606213
- Title: NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark
Dataset for Generative Language Models in Norwegian
- Title(参考訳): NLEBench+NorGLM:ノルウェーにおける生成言語モデルのための総合的経験分析とベンチマークデータセット
- Authors: Peng Liu, Lemei Zhang, Terje Nissen Farup, Even W. Lauvrak, Jon Espen
Ingvaldsen, Simen Eide, Jon Atle Gulla and Zhirong Yang
- Abstract要約: 低リソース言語であるノルウェー語で自然言語生成能力を評価するためのベンチマークであるNLEBenchを紹介する。
NLEBenchは、ニュースストーリーテリング、要約、オープンドメイン会話、自然言語理解、命令の微調整、毒性、バイアス評価から、自己計算されたChain-of-Thought調査まで、現実世界のNLPタスクスイートを含んでいる。
本稿では,多様なパラメータスケールとトランスフォーマーに基づくアーキテクチャで開発されたノルウェー生成言語モデル(NorGLM)についても紹介する。
- 参考スコア(独自算出の注目度): 4.236983772147863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Generative Language Models (GLMs) have transformed
Natural Language Processing (NLP) by showcasing the effectiveness of the
"pre-train, prompt, and predict" paradigm in utilizing pre-trained GLM
knowledge for diverse applications. Despite their potential, these capabilities
lack adequate quantitative characterization due to the absence of comprehensive
benchmarks, particularly for low-resource languages. Existing low-resource
benchmarks focus on discriminative language models like BERT, neglecting the
evaluation of generative language models. Moreover, current benchmarks often
overlook measuring generalization performance across multiple tasks, a crucial
metric for GLMs.
To bridge these gaps, we introduce NLEBench, a comprehensive benchmark
tailored for evaluating natural language generation capabilities in Norwegian,
a low-resource language. We use Norwegian as a case study to explore whether
current GLMs and benchmarks in mainstream languages like English can reveal the
unique characteristics of underrepresented languages. NLEBench encompasses a
suite of real-world NLP tasks ranging from news storytelling, summarization,
open-domain conversation, natural language understanding, instruction
fine-tuning, toxicity and bias evaluation, to self-curated Chain-of-Thought
investigation. It features two high-quality, human-annotated datasets: an
instruction dataset covering traditional Norwegian cultures, idioms, slang, and
special expressions, and a document-grounded multi-label dataset for topic
classification, question answering, and summarization. This paper also
introduces foundational Norwegian Generative Language Models (NorGLMs)
developed with diverse parameter scales and Transformer-based architectures.
Systematic evaluations on the proposed benchmark suite provide insights into
the capabilities and scalability of NorGLMs across various downstream tasks.
- Abstract(参考訳): ジェネレーティブ言語モデル(GLM)の最近の進歩は、様々な用途に事前訓練されたGLM知識を活用する上での「事前訓練、迅速、予測」パラダイムの有効性を示すことによって、自然言語処理(NLP)を変革している。
その可能性にもかかわらず、これらの能力は包括的なベンチマーク、特に低リソース言語が欠如しているため、十分な量的特徴付けを欠いている。
既存の低リソースベンチマークはbertのような判別言語モデルにフォーカスしており、生成言語モデルの評価を無視している。
さらに、現在のベンチマークでは、複数のタスクにわたる一般化パフォーマンスの測定を見落としていることが多い。
これらのギャップを埋めるために,低リソース言語であるノルウェー語で自然言語生成能力を評価するための総合ベンチマークであるnlebenchを紹介する。
我々はノルウェー語をケーススタディとして用いて、英語などの主流言語における現在のGLMとベンチマークが、表現不足言語の特徴を明らかにすることができるかどうかを探っている。
NLEBenchは、ニュースストーリーテリング、要約、オープンドメインの会話、自然言語理解、命令の微調整、毒性、バイアス評価など、現実のNLPタスクのスイートを含んでいる。
伝統的なノルウェー文化、イディオム、スラング、特殊表現をカバーする命令データセットと、トピック分類、質問応答、要約のための文書化されたマルチラベルデータセットである。
本稿では,多様なパラメータスケールとトランスフォーマーに基づくアーキテクチャで開発されたノルウェー生成言語モデル(NorGLM)についても紹介する。
提案したベンチマークスイートのシステム評価は、さまざまなダウンストリームタスクにわたるNorGLMの機能とスケーラビリティに関する洞察を提供する。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Situated Natural Language Explanations [54.083715161895036]
自然言語の説明(NLE)は、人間に意思決定を説明する最もアクセスしやすいツールである。
既存のNLE研究の視点は、観客を考慮に入れない。
Situated NLEは視点を提供し、説明の生成と評価に関するさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-27T14:14:28Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。
NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。
NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文 参考訳(メタデータ) (2023-06-13T14:11:19Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z) - Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。
教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文 参考訳(メタデータ) (2021-03-10T09:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。