論文の概要: PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation
- arxiv url: http://arxiv.org/abs/2406.18528v2
- Date: Sun, 17 Nov 2024 15:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:48.538942
- Title: PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation
- Title(参考訳): PrExMe! 機械翻訳と要約評価のためのオープンソースのLLMの大規模プロンプト探索
- Authors: Christoph Leiter, Steffen Eger,
- Abstract要約: 大規模言語モデル(LLM)はNLP研究に革命をもたらした。
インコンテキスト学習は、自然言語生成の評価指標としての使用を可能にする。
我々は,機械翻訳(MT)と要約データセットに基づいて,オープンソースのLCMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価した。
- 参考スコア(独自算出の注目度): 22.650575388026752
- License:
- Abstract: Large language models (LLMs) have revolutionized NLP research. Notably, in-context learning enables their use as evaluation metrics for natural language generation, making them particularly advantageous in low-resource scenarios and time-restricted applications. In this work, we introduce PrExMe, a large-scale Prompt Exploration for Metrics, where we evaluate more than 720 prompt templates for open-source LLM-based metrics on machine translation (MT) and summarization datasets, totalling over 6.6M evaluations. This extensive comparison (1) benchmarks recent open-source LLMs as metrics and (2) explores the stability and variability of different prompting strategies. We discover that, on the one hand, there are scenarios for which prompts are stable. For instance, some LLMs show idiosyncratic preferences and favor to grade generated texts with textual labels while others prefer to return numeric scores. On the other hand, the stability of prompts and model rankings can be susceptible to seemingly innocuous changes. For example, changing the requested output format from "0 to 100" to "-1 to +1" can strongly affect the rankings in our evaluation. Our study contributes to understanding the impact of different prompting approaches on LLM-based metrics for MT and summarization evaluation, highlighting the most stable prompting patterns and potential limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)はNLP研究に革命をもたらした。
特に、コンテキスト内学習は、自然言語生成の評価指標として使用することができ、低リソースシナリオや時間制限のアプリケーションで特に有利である。
本研究では,大規模なPrompt Exploration for Metrics(Prompt Exploration for Metrics)であるPrExMeを紹介し,機械翻訳(MT)と要約データセットに関するオープンソースのLCMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価し,合計660万以上の評価を行った。
この広範な比較(1)は、最近のオープンソースのLCMをメトリクスとしてベンチマークし、(2)異なるプロンプト戦略の安定性と変動性について検討する。
一方で、プロンプトが安定しているシナリオがあることが分かっています。
例えば、一部のLLMは慣用的な好みを示し、テキストラベルを持つグレード生成テキストを好む一方で、数値スコアを返すことを好んでいる。
一方、プロンプトとモデルランキングの安定性は、一見無害な変化の影響を受けやすい。
例えば、要求された出力フォーマットを"0 to 100"から"-1 to +1"に変更することは、評価のランク付けに大きく影響します。
本研究は,LLMに基づくMTの指標と要約評価に対する異なるプロンプト手法の影響を理解することに貢献し,最も安定したプロンプトパターンと潜在的な制限を強調した。
関連論文リスト
- What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - AXCEL: Automated eXplainable Consistency Evaluation using LLMs [6.382787013075262]
大規模言語モデル(LLM)は、産業と学術の両方で様々なタスクに広く使われている。
本研究は,LLM(AXCEL)を用いた自動eXplainable Consistency評価を導入する。
AXCELは、詳細な推論を提供することで、一貫性スコアの説明を提供するプロンプトベースの一貫性メトリクスである。
論文 参考訳(メタデータ) (2024-09-25T14:45:52Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。