Fugu-MT 論文翻訳(概要): Text Style Transfer Evaluation Using Large Language Models

論文の概要: Text Style Transfer Evaluation Using Large Language Models

arxiv url: http://arxiv.org/abs/2308.13577v1
Date: Fri, 25 Aug 2023 13:07:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 20:29:16.004992
Title: Text Style Transfer Evaluation Using Large Language Models
Title（参考訳）: 大規模言語モデルを用いたテキストスタイル転送評価
Authors: Phil Ostheimer, Mayank Nagda, Marius Kloft, Sophie Fellenz
Abstract要約: テキストスタイル転送(TST)は、生成されたテキストの品質が複数の側面で表されるため、評価が難しい。人体評価はTST評価における金の基準であるが,高価であり,再現は困難である。近年のLarge Language Models (LLMs) の進歩は, マッチングだけでなく, 平均的な人的パフォーマンスを上回る能力を示している。
参考スコア（独自算出の注目度）: 24.64611983641699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text Style Transfer (TST) is challenging to evaluate because the quality of the generated text manifests itself in multiple aspects, each of which is hard to measure individually: style transfer accuracy, content preservation, and overall fluency of the text. Human evaluation is the gold standard in TST evaluation; however, it is expensive, and the results are difficult to reproduce. Numerous automated metrics are employed to assess performance in these aspects, serving as substitutes for human evaluation. However, the correlation between many of these automated metrics and human evaluations remains unclear, raising doubts about their effectiveness as reliable benchmarks. Recent advancements in Large Language Models (LLMs) have demonstrated their ability to not only match but also surpass the average human performance across a wide range of unseen tasks. This suggests that LLMs have the potential to serve as a viable alternative to human evaluation and other automated metrics. We assess the performance of different LLMs on TST evaluation by employing multiple input prompts and comparing their results. Our findings indicate that (even zero-shot) prompting correlates strongly with human evaluation and often surpasses the performance of (other) automated metrics. Additionally, we propose the ensembling of prompts and show it increases the robustness of TST evaluation.This work contributes to the ongoing efforts in evaluating LLMs on diverse tasks, which includes a discussion of failure cases and limitations.
Abstract（参考訳）: テキスト・スタイル・トランスファー(tst)は、生成したテキストの品質が、スタイル・トランスファーの正確性、コンテンツ保存性、テキスト全体の流動性など、個別に測定することが困難であるため、評価が困難である。人体評価はTST評価における金の基準であるが,高価であり,再現は困難である。これらの側面における性能評価には多数の自動メトリクスが使用され、人的評価の代用として機能する。しかし、これらの自動測定と人的評価の相関関係はいまだ不明であり、信頼性の高いベンチマークとしての有効性に疑問を呈している。近年のLarge Language Models (LLM) の進歩は、マッチするだけでなく、目に見えないタスクで平均的な人的パフォーマンスを上回る能力を示している。このことは、LLMが人間の評価や他の自動メトリクスの代替となる可能性を持っていることを示唆している。複数の入力プロンプトを用いてtst評価における異なるllmの性能を評価し,結果の比較を行った。その結果、(ゼロショットであっても)人の評価と強く相関し、しばしば(他の)自動メトリクスのパフォーマンスを上回ることが示唆された。さらに,本研究は,TST評価の堅牢性向上を図り,障害事例や制限の議論を含む多種多様なタスクにおけるLCM評価の取り組みに寄与する。

関連論文リスト

Evaluating Generated Commit Messages with Large Language Models [10.048749643042491]
コミットメッセージは、コード変更の文書化や説明に役立つため、ソフトウェア開発において不可欠である。本研究では,大規模言語モデル (LLM) がメッセージ品質の自動評価手段としての可能性について検討する。
論文参考訳（メタデータ） (2025-07-15T01:50:20Z)
Evaluating Text Style Transfer Evaluation: Are There Any Reliable Metrics? [9.234136424254261]
テキスト・スタイル・トランスファー(テキスト・スタイル・トランスファー、英: Text style transfer、TST)は、テキストを変換して、元のコンテンツを保持しながら特定のスタイルを反映するタスクである。人間の評価は理想的であるが、他の自然言語処理(NLP)タスクと同様にコストがかかる。本稿では,TST評価のためのNLPタスクから,既存のメトリクスと新しいメトリクスのセットについて検討する。
論文参考訳（メタデータ） (2025-02-07T07:39:17Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。 LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文参考訳（メタデータ） (2024-08-07T17:11:34Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。 MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文参考訳（メタデータ） (2024-04-10T01:26:24Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Evaluation Metrics of Language Generation Models for Synthetic Traffic Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文参考訳（メタデータ） (2023-11-21T11:26:26Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。