Fugu-MT 論文翻訳(概要): NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian

論文の概要: NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian

arxiv url: http://arxiv.org/abs/2312.01314v2
Date: Tue, 01 Oct 2024 02:56:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 02:27:09.904745
Title: NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian
Title（参考訳）: NLEBench+NorGLM:ノルウェーにおける生成言語モデルのための総合的経験分析とベンチマークデータセット
Authors: Peng Liu, Lemei Zhang, Terje Farup, Even W. Lauvrak, Jon Espen Ingvaldsen, Simen Eide, Jon Atle Gulla, Zhirong Yang,
Abstract要約: ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。 GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
参考スコア（独自算出の注目度）: 4.062031248854444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Norwegian, spoken by only 5 million population, is under-representative within the most impressive breakthroughs in NLP tasks. To the best of our knowledge, there has not yet been a comprehensive evaluation of the existing language models (LMs) on Norwegian generation tasks during the article writing process. To fill this gap, we 1) compiled the existing Norwegian dataset and pre-trained 4 Norwegian Open Language Models varied from parameter scales and architectures, collectively called NorGLM; 2) introduced a comprehensive benchmark, NLEBench, for evaluating natural language generation capabilities in Norwegian, encompassing translation and human annotation. Based on the investigation, we find that: 1) the mainstream, English-dominated LM GPT-3.5 has limited capability in understanding the Norwegian context; 2) the increase in model parameter scales demonstrates limited impact on the performance of downstream tasks when the pre-training dataset is constrained in size; 3) smaller models also demonstrate the reasoning capability through Chain-of-Thought; 4) a multi-task dataset that includes synergy tasks can be used to verify the generalizability of LLMs on natural language understanding and, meanwhile, test the interconnectedness of these NLP tasks. We share our resources and code for reproducibility under a CC BY-NC 4.0 license.
Abstract（参考訳）: ノルウェーの人口はわずか500万人に過ぎず、NLPタスクにおける最も印象的なブレークスルーにはほど遠い。我々の知る限り、記事作成過程におけるノルウェー生成タスクにおける既存の言語モデル(LM)の包括的評価は、まだ行われていない。このギャップを埋めるために、私たちは 1) 既存のノルウェーのデータセットをコンパイルし、パラメータスケールとアーキテクチャから、NorGLMと呼ばれる4つのノルウェーオープン言語モデルを事前訓練した。 NLEBenchはノルウェーの自然言語生成能力を評価するための総合的なベンチマークであり、翻訳と人間のアノテーションを含んでいる。調査の結果、以下のことが判明した。 1) 主流のイギリス支配のLM GPT-3.5はノルウェーの文脈を理解する能力に限界がある。 2) モデルパラメータ尺度の増大は,事前学習データセットのサイズが制約された場合,下流タスクのパフォーマンスに限られた影響を示す。 3) より小型のモデルもまた,Chain-of-Thoughtによる推論能力を示す。 4) 構文タスクを含むマルチタスクデータセットを用いて,自然言語理解に基づくLLMの一般化可能性を検証するとともに,これらのNLPタスクの相互接続性をテストする。 CC BY-NC 4.0ライセンスの下で再現性のためのリソースとコードを共有します。

関連論文リスト

TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。 TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文参考訳（メタデータ） (2025-08-07T15:11:17Z)
skLEP: A Slovak General Language Understanding Benchmark [0.030113849517062304]
skLEPはスロバキアの自然言語理解(NLU)モデルを評価するために特別に設計された最初の包括的なベンチマークである。このベンチマークを作成するために、スロバキア向けに調整された新しいオリジナルデータセットをキュレートし、精密に英語のNLUリソースを翻訳した。本稿では,スロバキア固有の言語モデル,多言語言語モデル,および英語事前学習言語モデルの体系的および広範囲な評価を行う。
論文参考訳（メタデータ） (2025-06-26T17:35:04Z)
Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages [5.376127198656944]
1) LLM支援データセット生成, (2) 機械翻訳, (3) ネイティブ話者による人書きデータから, 文化的に曖昧なストーリー理解データセットを構築するための3つのデータセット作成戦略を比較した。以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
論文参考訳（メタデータ） (2025-02-18T15:14:58Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文参考訳（メタデータ） (2025-01-22T12:06:16Z)
Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles [8.083472758337559]
ノルウェーのニュース記事の高品質な人間によるサマリーのデータセットを紹介する。このデータセットは、生成言語モデルの抽象的な要約能力のベンチマークを目的としている。
論文参考訳（メタデータ） (2025-01-13T22:08:29Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。本手法は,様々なベンチマーク上での局所モデル性能を向上させる。また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文参考訳（メタデータ） (2024-03-15T14:36:38Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Situated Natural Language Explanations [54.083715161895036]
自然言語の説明(NLE)は、人間に意思決定を説明する最もアクセスしやすいツールである。既存のNLE研究の視点は、観客を考慮に入れない。 Situated NLEは視点を提供し、説明の生成と評価に関するさらなる研究を促進する。
論文参考訳（メタデータ） (2023-08-27T14:14:28Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。 NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。 NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文参考訳（メタデータ） (2023-06-13T14:11:19Z)
e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2021-05-08T18:46:33Z)
Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文参考訳（メタデータ） (2021-04-13T23:18:04Z)
Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文参考訳（メタデータ） (2021-03-10T09:15:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。