Fugu-MT 論文翻訳(概要): NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian

論文の概要: NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian

arxiv url: http://arxiv.org/abs/2312.01314v1
Date: Sun, 3 Dec 2023 08:09:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 17:41:43.606213
Title: NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian
Title（参考訳）: NLEBench+NorGLM:ノルウェーにおける生成言語モデルのための総合的経験分析とベンチマークデータセット
Authors: Peng Liu, Lemei Zhang, Terje Nissen Farup, Even W. Lauvrak, Jon Espen Ingvaldsen, Simen Eide, Jon Atle Gulla and Zhirong Yang
Abstract要約: 低リソース言語であるノルウェー語で自然言語生成能力を評価するためのベンチマークであるNLEBenchを紹介する。 NLEBenchは、ニュースストーリーテリング、要約、オープンドメイン会話、自然言語理解、命令の微調整、毒性、バイアス評価から、自己計算されたChain-of-Thought調査まで、現実世界のNLPタスクスイートを含んでいる。本稿では,多様なパラメータスケールとトランスフォーマーに基づくアーキテクチャで開発されたノルウェー生成言語モデル(NorGLM)についても紹介する。
参考スコア（独自算出の注目度）: 4.236983772147863
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Generative Language Models (GLMs) have transformed Natural Language Processing (NLP) by showcasing the effectiveness of the "pre-train, prompt, and predict" paradigm in utilizing pre-trained GLM knowledge for diverse applications. Despite their potential, these capabilities lack adequate quantitative characterization due to the absence of comprehensive benchmarks, particularly for low-resource languages. Existing low-resource benchmarks focus on discriminative language models like BERT, neglecting the evaluation of generative language models. Moreover, current benchmarks often overlook measuring generalization performance across multiple tasks, a crucial metric for GLMs. To bridge these gaps, we introduce NLEBench, a comprehensive benchmark tailored for evaluating natural language generation capabilities in Norwegian, a low-resource language. We use Norwegian as a case study to explore whether current GLMs and benchmarks in mainstream languages like English can reveal the unique characteristics of underrepresented languages. NLEBench encompasses a suite of real-world NLP tasks ranging from news storytelling, summarization, open-domain conversation, natural language understanding, instruction fine-tuning, toxicity and bias evaluation, to self-curated Chain-of-Thought investigation. It features two high-quality, human-annotated datasets: an instruction dataset covering traditional Norwegian cultures, idioms, slang, and special expressions, and a document-grounded multi-label dataset for topic classification, question answering, and summarization. This paper also introduces foundational Norwegian Generative Language Models (NorGLMs) developed with diverse parameter scales and Transformer-based architectures. Systematic evaluations on the proposed benchmark suite provide insights into the capabilities and scalability of NorGLMs across various downstream tasks.
Abstract（参考訳）: ジェネレーティブ言語モデル(GLM)の最近の進歩は、様々な用途に事前訓練されたGLM知識を活用する上での「事前訓練、迅速、予測」パラダイムの有効性を示すことによって、自然言語処理(NLP)を変革している。その可能性にもかかわらず、これらの能力は包括的なベンチマーク、特に低リソース言語が欠如しているため、十分な量的特徴付けを欠いている。既存の低リソースベンチマークはbertのような判別言語モデルにフォーカスしており、生成言語モデルの評価を無視している。さらに、現在のベンチマークでは、複数のタスクにわたる一般化パフォーマンスの測定を見落としていることが多い。これらのギャップを埋めるために,低リソース言語であるノルウェー語で自然言語生成能力を評価するための総合ベンチマークであるnlebenchを紹介する。我々はノルウェー語をケーススタディとして用いて、英語などの主流言語における現在のGLMとベンチマークが、表現不足言語の特徴を明らかにすることができるかどうかを探っている。 NLEBenchは、ニュースストーリーテリング、要約、オープンドメインの会話、自然言語理解、命令の微調整、毒性、バイアス評価など、現実のNLPタスクのスイートを含んでいる。伝統的なノルウェー文化、イディオム、スラング、特殊表現をカバーする命令データセットと、トピック分類、質問応答、要約のための文書化されたマルチラベルデータセットである。本稿では,多様なパラメータスケールとトランスフォーマーに基づくアーキテクチャで開発されたノルウェー生成言語モデル(NorGLM)についても紹介する。提案したベンチマークスイートのシステム評価は、さまざまなダウンストリームタスクにわたるNorGLMの機能とスケーラビリティに関する洞察を提供する。

関連論文リスト

TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。 TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文参考訳（メタデータ） (2025-08-07T15:11:17Z)
skLEP: A Slovak General Language Understanding Benchmark [0.030113849517062304]
skLEPはスロバキアの自然言語理解(NLU)モデルを評価するために特別に設計された最初の包括的なベンチマークである。このベンチマークを作成するために、スロバキア向けに調整された新しいオリジナルデータセットをキュレートし、精密に英語のNLUリソースを翻訳した。本稿では,スロバキア固有の言語モデル,多言語言語モデル,および英語事前学習言語モデルの体系的および広範囲な評価を行う。
論文参考訳（メタデータ） (2025-06-26T17:35:04Z)
Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages [5.376127198656944]
1) LLM支援データセット生成, (2) 機械翻訳, (3) ネイティブ話者による人書きデータから, 文化的に曖昧なストーリー理解データセットを構築するための3つのデータセット作成戦略を比較した。以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
論文参考訳（メタデータ） (2025-02-18T15:14:58Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文参考訳（メタデータ） (2025-01-22T12:06:16Z)
Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles [8.083472758337559]
ノルウェーのニュース記事の高品質な人間によるサマリーのデータセットを紹介する。このデータセットは、生成言語モデルの抽象的な要約能力のベンチマークを目的としている。
論文参考訳（メタデータ） (2025-01-13T22:08:29Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。本手法は,様々なベンチマーク上での局所モデル性能を向上させる。また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文参考訳（メタデータ） (2024-03-15T14:36:38Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Situated Natural Language Explanations [54.083715161895036]
自然言語の説明(NLE)は、人間に意思決定を説明する最もアクセスしやすいツールである。既存のNLE研究の視点は、観客を考慮に入れない。 Situated NLEは視点を提供し、説明の生成と評価に関するさらなる研究を促進する。
論文参考訳（メタデータ） (2023-08-27T14:14:28Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。 NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。 NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文参考訳（メタデータ） (2023-06-13T14:11:19Z)
e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2021-05-08T18:46:33Z)
Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文参考訳（メタデータ） (2021-04-13T23:18:04Z)
Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文参考訳（メタデータ） (2021-03-10T09:15:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。