論文の概要: The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics
- arxiv url: http://arxiv.org/abs/2310.19792v1
- Date: Mon, 30 Oct 2023 17:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:41:56.756691
- Title: The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics
- Title(参考訳): Eval4NLP 2023 大規模言語モデルを説明可能な指標として示す作業
- Authors: Christoph Leiter, Juri Opitz, Daniel Deutsch, Yang Gao, Rotem Dror,
Steffen Eger
- Abstract要約: 生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
- 参考スコア(独自算出の注目度): 36.52897053496835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With an increasing number of parameters and pre-training data, generative
large language models (LLMs) have shown remarkable capabilities to solve tasks
with minimal or no task-related examples. Notably, LLMs have been successfully
employed as evaluation metrics in text generation tasks. Within this context,
we introduce the Eval4NLP 2023 shared task that asks participants to explore
prompting and score extraction for machine translation (MT) and summarization
evaluation. Specifically, we propose a novel competition setting in which we
select a list of allowed LLMs and disallow fine-tuning to ensure a focus on
prompting. We present an overview of participants' approaches and evaluate them
on a new reference-free test set spanning three language pairs for MT and a
summarization dataset. Notably, despite the task's restrictions, the
best-performing systems achieve results on par with or even surpassing recent
reference-free metrics developed using larger models, including GEMBA and
Comet-Kiwi-XXL. Finally, as a separate track, we perform a small-scale human
evaluation of the plausibility of explanations given by the LLMs.
- Abstract(参考訳): パラメータの数の増加と事前学習データにより、生成型大規模言語モデル(LLM)は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示した。
特に、LLMはテキスト生成タスクにおいて評価指標としてうまく採用されている。
本研究では,機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出を参加者に求めるEval4NLP 2023共有タスクを提案する。
具体的には,許可されたllmのリストを選択し,プロンプトに焦点を合わせるために微調整を禁止する,新たなコンペティション設定を提案する。
参加者のアプローチの概要を述べるとともに,MTの3つの言語対と要約データセットにまたがる新しい参照なしテストセットについて評価する。
特に、タスクの制限にもかかわらず、最高のパフォーマンスのシステムは、GEMBAやComet-Kiwi-XXLといった大規模モデルで開発された最近の参照なしメトリクスと同等かそれ以上の結果を得る。
最後に,個別のトラックとして,llmによる説明の可能性について,小規模の人間による評価を行う。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Exploring Prompting Large Language Models as Explainable Metrics [0.0]
本稿では,Large Language Models (LLMs) を用いた要約タスクの説明可能な評価のためのゼロショットプロンプトベースの戦略を提案する。
自然言語処理(NLP)における評価指標としてのLCMの有望な可能性を示す実験を行った。
得られた最良プロンプトの性能は、テストデータ上のテキスト要約タスクにおける人間の評価と、0.477のKendall相関を達成した。
論文 参考訳(メタデータ) (2023-11-20T06:06:22Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。