論文の概要: OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.13524v1
- Date: Wed, 21 Feb 2024 04:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:10:51.850916
- Title: OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models
- Title(参考訳): omgeval: 大規模言語モデルのためのオープン多言語生成評価ベンチマーク
- Authors: Yang Liu, Meng Xu, Shuo Wang, Liner Yang, Haoyu Wang, Zhenghao Liu,
Cunliang Kong, Yun Chen, Yang Liu, Maosong Sun, Erhong Yang
- Abstract要約: OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
- 参考スコア(独自算出の注目度): 59.54423478596468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) should generally benefit individuals from
various cultural backgrounds around the world. However, most recent advanced
generative evaluation benchmarks tailed for LLMs mainly focus on English. To
this end, we introduce OMGEval, the first Open-source Multilingual Generative
test set that can assess the capability of LLMs in different languages. For
each language, OMGEval provides 804 open-ended questions, covering a wide range
of important capabilities of LLMs, such as general knowledge, logical
reasoning, and so on. Each question is rigorously verified by human annotators.
Notably, to sufficiently reflect the compatibility of LLMs in different
cultural backgrounds, we perform localization for each non-English language.
Specifically, the current version of OMGEval includes 5 languages (i.e., Zh,
Ru, Fr, Es, Ar). Following AlpacaEval, we employ GPT-4 as the adjudicator to
automatically score different model outputs, which is shown closely related to
human evaluation. We evaluate several representative multilingual LLMs on the
proposed OMGEval, which we believe will provide a valuable reference for the
community to further understand and improve the multilingual capability of
LLMs. OMGEval is available at https://github.com/blcuicall/OMGEval.
- Abstract(参考訳): 現代の大きな言語モデル(LLM)は、一般的に世界中の様々な文化的背景から個人に恩恵を与えるべきである。
しかし、最近のLLM向けの先進的な世代評価ベンチマークは主に英語に焦点を当てている。
この目的のために,我々は,オープンソースの多言語生成テストセットであるomgevalを紹介し,異なる言語におけるllmの能力を評価する。
各言語について、OMGEvalは804のオープンエンド質問を提供し、一般的な知識や論理的推論など、LLMの重要な機能を幅広くカバーしている。
各質問は、人間のアノテータによって厳格に検証される。
特に、異なる文化的背景におけるLLMの互換性を十分に反映するために、非英語言語毎にローカライズを行う。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
alpacaeval に続いて gpt-4 を用いて異なるモデルアウトプットを自動的にスコア付けし, 評価に密接な関係を示した。
我々は,提案するOMGEval上で,複数の代表的多言語 LLM を評価し,LLM の多言語能力をさらに理解し改善する上で,コミュニティにとって貴重な基準を提供すると考えている。
OMGEvalはhttps://github.com/blcuicall/OMGEvalで入手できる。
関連論文リスト
- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
大型言語モデル(LLM)は、人間の好みや判断のプロキシとして機能するタスクの評価器として一般的に用いられる。
既存のベンチマークは主に英語に重点を置いており、非英語の文脈における評価者としてのLLMの有効性についての限られた洞察を提供している。
MM-Evalは6つのカテゴリにまたがる18言語をカバーする多言語メタ評価ベンチマークである。
論文 参考訳(メタデータ) (2024-10-23T06:04:55Z) - Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters [3.7273829129985305]
本稿では,言語から多言語大モデル(LLM)へのグラフ知識の統合について検討する。
我々は、感情分析(SA)および名前付きエンティティ認識(NER)における低リソース言語(LRL)の性能向上のために、言語固有のアダプタを使用している。
構造化グラフ知識が,SA および NER における LRL の多言語 LLM の性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-01T15:56:24Z) - LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - MindMerger: Efficient Boosting LLM Reasoning in non-English Languages [26.334092384176518]
推論能力は大規模言語モデル(LLM)にとって不可欠である
我々は,多言語モデルからLLMと外部言語理解機能を融合したMindMergerを提案する。
MindMergerは、特に低リソース言語において、すべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-27T17:41:54Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。