論文の概要: Text Style Transfer Evaluation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2308.13577v2
- Date: Sat, 23 Sep 2023 06:05:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:09:21.439071
- Title: Text Style Transfer Evaluation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたテキストスタイル転送評価
- Authors: Phil Ostheimer, Mayank Nagda, Marius Kloft, Sophie Fellenz
- Abstract要約: 大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
- 参考スコア(独自算出の注目度): 24.64611983641699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating Text Style Transfer (TST) is a complex task due to its
multifaceted nature. The quality of the generated text is measured based on
challenging factors, such as style transfer accuracy, content preservation, and
overall fluency. While human evaluation is considered to be the gold standard
in TST assessment, it is costly and often hard to reproduce. Therefore,
automated metrics are prevalent in these domains. Nevertheless, it remains
unclear whether these automated metrics correlate with human evaluations.
Recent strides in Large Language Models (LLMs) have showcased their capacity to
match and even exceed average human performance across diverse, unseen tasks.
This suggests that LLMs could be a feasible alternative to human evaluation and
other automated metrics in TST evaluation. We compare the results of different
LLMs in TST using multiple input prompts. Our findings highlight a strong
correlation between (even zero-shot) prompting and human evaluation, showing
that LLMs often outperform traditional automated metrics. Furthermore, we
introduce the concept of prompt ensembling, demonstrating its ability to
enhance the robustness of TST evaluation. This research contributes to the
ongoing evaluation of LLMs in diverse tasks, offering insights into successful
outcomes and areas of limitation.
- Abstract(参考訳): テキストスタイル転送(TST)の評価は、その多面的性質のため複雑なタスクである。
生成したテキストの品質は、スタイル転送精度、コンテンツ保存、全体的な流速といった難易度に基づいて測定される。
人体評価はTST評価における金の基準と考えられているが、コストがかかり、しばしば再現が困難である。
したがって、これらの領域では自動メトリクスが一般的です。
それでも、これらの自動測定が人間の評価と相関するかどうかは不明だ。
近年のLLM(Large Language Models)の進歩は、多様な、目に見えないタスクにおいて、平均的な人的パフォーマンスを上回る能力を示した。
これは、TLMが人間の評価とTST評価における他の自動メトリクスの代替になり得ることを示唆している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較する。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
さらに,本研究では,TST評価の堅牢性を高める能力を示す,即時アンサンブルの概念を紹介した。
本研究は,様々なタスクにおけるLCMの継続的な評価に寄与し,成果と限界領域に関する洞察を提供する。
関連論文リスト
- How Reliable Are Automatic Evaluation Methods for Instruction-Tuned
LLMs? [3.5634988336513587]
本研究では,このような手法の信頼性を多岐にわたるタスクや言語横断的な環境で検証する。
自動評価手法は人間の判断を特定の条件下で近似することができるが,信頼性は文脈に依存している。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Measuring Reliability of Large Language Models through Semantic
Consistency [3.4990427823966828]
我々は,オープンなテキスト出力の比較を可能にする意味的一貫性の尺度を開発した。
我々は,この整合度尺度のいくつかのバージョンを実装し,パラフレーズ化した質問に対して,複数のPLMの性能を評価する。
論文 参考訳(メタデータ) (2022-11-10T20:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。