論文の概要: Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation?
- arxiv url: http://arxiv.org/abs/2309.07462v1
- Date: Thu, 14 Sep 2023 06:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:59:26.303301
- Title: Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation?
- Title(参考訳): 大規模言語モデルに基づく評価は多言語評価のスケールアップの解決策か?
- Authors: Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed
Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。
現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。
本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
- 参考スコア(独自算出の注目度): 20.476500441734427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance on
Natural Language Processing (NLP) tasks, such as Question Answering,
Summarization, and Classification. The use of LLMs as evaluators, that can rank
or score the output of other models (usually LLMs) has become increasingly
popular, due to the limitations of current evaluation techniques including the
lack of appropriate benchmarks, metrics, cost, and access to human annotators.
While LLMs are capable of handling approximately 100 languages, the majority of
languages beyond the top 20 lack systematic evaluation across various tasks,
metrics, and benchmarks. This creates an urgent need to scale up multilingual
evaluation to ensure a precise understanding of LLM performance across diverse
languages. LLM-based evaluators seem like the perfect solution to this problem,
as they do not require human annotators, human-created references, or
benchmarks and can theoretically be used to evaluate any language covered by
the LLM. In this paper, we investigate whether LLM-based evaluators can help
scale up multilingual evaluation. Specifically, we calibrate LLM-based
evaluation against 20k human judgments of five metrics across three
text-generation tasks in eight languages. Our findings indicate that LLM-based
evaluators may exhibit bias towards higher scores and should be used with
caution and should always be calibrated with a dataset of native speaker
judgments, particularly in low-resource and non-Latin script languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答、要約、分類などの自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを示している。
評価器としてのLLMの使用は、適切なベンチマークの欠如、メトリクス、コスト、人間のアノテータへのアクセスなど、現在の評価手法の限界により、他のモデル(通常LLM)の出力のランク付けやスコア付けが可能なものが増えてきている。
LLMはおよそ100の言語を扱うことができるが、上位20を超える言語の大部分は、さまざまなタスク、メトリクス、ベンチマークの体系的な評価を欠いている。
これにより、多言語間のLLM性能の正確な理解を確保するために、多言語評価のスケールアップが緊急に必要となる。
llmベースの評価器は、人間の注釈や人間が作成した参照、ベンチマークを必要とせず、理論的にllmがカバーする言語を評価するために使用できるため、この問題に対する完璧な解決策のように思える。
本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
具体的には、8言語で3つのテキスト生成タスクにまたがる5つの指標の20k人の判断に対するLLMに基づく評価を校正する。
以上の結果から,LLMに基づく評価器は高いスコアに偏りを示す可能性があり,特に低リソースおよび非ラテン文字言語において,常にネイティブ話者判定のデータセットで校正されるべきであることが示唆された。
関連論文リスト
- ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [39.83660394323222]
FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。
具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。
FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their
English Dominant Abilities with Linguistically-Diverse Prompts [36.939044809209456]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - CMMLU: Measuring massive multitask language understanding in Chinese [121.75974334692056]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Multilingual Machine Translation with Large Language Models: Empirical
Results and Analysis [57.101216646004666]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages [15.373725507698591]
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。
我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。
実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
論文 参考訳(メタデータ) (2022-05-12T20:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。