論文の概要: OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.13524v1
- Date: Wed, 21 Feb 2024 04:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:10:51.850916
- Title: OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models
- Title(参考訳): omgeval: 大規模言語モデルのためのオープン多言語生成評価ベンチマーク
- Authors: Yang Liu, Meng Xu, Shuo Wang, Liner Yang, Haoyu Wang, Zhenghao Liu,
Cunliang Kong, Yun Chen, Yang Liu, Maosong Sun, Erhong Yang
- Abstract要約: OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
- 参考スコア(独自算出の注目度): 59.54423478596468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) should generally benefit individuals from
various cultural backgrounds around the world. However, most recent advanced
generative evaluation benchmarks tailed for LLMs mainly focus on English. To
this end, we introduce OMGEval, the first Open-source Multilingual Generative
test set that can assess the capability of LLMs in different languages. For
each language, OMGEval provides 804 open-ended questions, covering a wide range
of important capabilities of LLMs, such as general knowledge, logical
reasoning, and so on. Each question is rigorously verified by human annotators.
Notably, to sufficiently reflect the compatibility of LLMs in different
cultural backgrounds, we perform localization for each non-English language.
Specifically, the current version of OMGEval includes 5 languages (i.e., Zh,
Ru, Fr, Es, Ar). Following AlpacaEval, we employ GPT-4 as the adjudicator to
automatically score different model outputs, which is shown closely related to
human evaluation. We evaluate several representative multilingual LLMs on the
proposed OMGEval, which we believe will provide a valuable reference for the
community to further understand and improve the multilingual capability of
LLMs. OMGEval is available at https://github.com/blcuicall/OMGEval.
- Abstract(参考訳): 現代の大きな言語モデル(LLM)は、一般的に世界中の様々な文化的背景から個人に恩恵を与えるべきである。
しかし、最近のLLM向けの先進的な世代評価ベンチマークは主に英語に焦点を当てている。
この目的のために,我々は,オープンソースの多言語生成テストセットであるomgevalを紹介し,異なる言語におけるllmの能力を評価する。
各言語について、OMGEvalは804のオープンエンド質問を提供し、一般的な知識や論理的推論など、LLMの重要な機能を幅広くカバーしている。
各質問は、人間のアノテータによって厳格に検証される。
特に、異なる文化的背景におけるLLMの互換性を十分に反映するために、非英語言語毎にローカライズを行う。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
alpacaeval に続いて gpt-4 を用いて異なるモデルアウトプットを自動的にスコア付けし, 評価に密接な関係を示した。
我々は,提案するOMGEval上で,複数の代表的多言語 LLM を評価し,LLM の多言語能力をさらに理解し改善する上で,コミュニティにとって貴重な基準を提供すると考えている。
OMGEvalはhttps://github.com/blcuicall/OMGEvalで入手できる。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - How Multilingual is Multilingual LLM? [20.90512352559827]
本研究では,101言語にまたがる徹底的な分析を行うことにより,Large Language Models (LLM) の多言語能力を評価する。
それぞれのクアドラントを掘り下げることで、分類の背後にある理論的根拠を明らかにし、これらの言語をチューニングするための実行可能なガイドラインを提供します。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their
English Dominant Abilities with Linguistically-Diverse Prompts [36.939044809209456]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。