Fugu-MT 論文翻訳(概要): APPLS: A Meta-evaluation Testbed for Plain Language Summarization

論文の概要: APPLS: A Meta-evaluation Testbed for Plain Language Summarization

arxiv url: http://arxiv.org/abs/2305.14341v1
Date: Tue, 23 May 2023 17:59:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 13:27:53.204536
Title: APPLS: A Meta-evaluation Testbed for Plain Language Summarization
Title（参考訳）: APPLS: 平易な言語要約のためのメタ評価テストベッド
Authors: Yue Guo, Tal August, Gondy Leroy, Trevor Cohen, Lucy Lu Wang
Abstract要約: 平易な言語要約(PLS)には複数の相互関連言語変換が含まれる。 PLSのためのメトリクスは明示的に設計されておらず、他のテキスト生成評価指標の適合性はまだ不明である。本稿では,PLSの既存の指標を評価するための,詳細なメタ評価テストベッドであるAPPLSを提案する。 PLSにおけるテキストの単純化を評価するための新しい指標であるPOMMEを紹介する。
参考スコア（独自算出の注目度）: 18.511060354004456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While there has been significant development of models for Plain Language Summarization (PLS), evaluation remains a challenge. This is in part because PLS involves multiple, interrelated language transformations (e.g., adding background explanations, removing specialized terminology). No metrics are explicitly engineered for PLS, and the suitability of other text generation evaluation metrics remains unclear. To address these concerns, our study presents a granular meta-evaluation testbed, APPLS, designed to evaluate existing metrics for PLS. Drawing on insights from previous research, we define controlled perturbations for our testbed along four criteria that a metric of plain language should capture: informativeness, simplification, coherence, and faithfulness. Our analysis of metrics using this testbed reveals that current metrics fail to capture simplification, signaling a crucial gap. In response, we introduce POMME, a novel metric designed to assess text simplification in PLS. We demonstrate its correlation with simplification perturbations and validate across a variety of datasets. Our research contributes the first meta-evaluation testbed for PLS and a comprehensive evaluation of existing metrics, offering insights with relevance to other text generation tasks.
Abstract（参考訳）: PLS(Plain Language Summarization)のモデルの開発は進んでいるが、評価は依然として課題である。これはplsが複数の相互関連言語変換(背景説明の追加、専門用語の削除など)を伴っているためである。 PLSのためのメトリクスは明示的に設計されておらず、他のテキスト生成評価指標の適合性はまだ不明である。これらの問題に対処するため,本研究では,PLSの既存の指標を評価するために,詳細なメタ評価テストベッドであるAPPLSを提案する。従来の研究から得られた知見に基づいて、我々は、平易言語の計量が捉えるべき4つの基準(情報性、単純化、一貫性、忠実性)に沿って、テストベッドに対する制御された摂動を定義する。このテストベッドを使ってメトリクスを分析した結果、現在のメトリクスは単純化を捉えられず、重大なギャップを示唆しています。そこで本研究では,plsにおけるテキスト簡易化を評価するための新しい指標であるpommeを紹介する。我々は、単純化摂動と相関を示し、様々なデータセットにまたがって検証する。本研究は,PLSのための最初のメタ評価テストベッドと既存のメトリクスを総合的に評価し,他のテキスト生成タスクに関連性のある洞察を提供する。

関連論文リスト

A Critical Study of Automatic Evaluation in Sign Language Translation [17.083206782232185]
テキストベースのメトリクスが手話変換(SLT)の出力の質を確実に捉えることができるかは、まだ不明である。 BLEU, chrF, ROUGE, BLEURT, G-Eval や GEMBA などの大規模言語モデルに基づく評価器の6つの指標を解析した。
論文参考訳（メタデータ） (2025-10-29T11:57:03Z)
The illusion of a perfect metric: Why evaluating AI's words is harder than it looks [0.0]
自然言語生成(NLG)は、AIの実用化に不可欠である。人間の評価はデファクトスタンダードと考えられているが、高価でスケーラビリティに欠ける。決定的な解として単一の計量が現れることはなく、結果として、完全に含意を考慮せずに異なる計量を用いた研究が行われる。
論文参考訳（メタデータ） (2025-08-19T13:22:41Z)
LaajMeter: A Framework for LaaJ Evaluation [1.8583060903632522]
大規模言語モデル (LLM) は、自然言語処理タスクにおける評価器としてますます使われている。 LaaJMeterは、LaaJsの制御されたメタ評価のためのシミュレーションベースのフレームワークである。
論文参考訳（メタデータ） (2025-08-13T19:51:05Z)
Evaluating Step-by-step Reasoning Traces: A Survey [3.895864050325129]
評価基準を4つのトップレベルカテゴリ(基底性、妥当性、コヒーレンス、有用性)で分類することを提案する。次に、それらの実装に基づいてメトリクスを分類し、それぞれの基準を評価するために使用されるメトリクスを調査し、評価モデルが異なる基準をまたいで転送できるかどうかを調査する。
論文参考訳（メタデータ） (2025-02-17T19:58:31Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文参考訳（メタデータ） (2024-07-01T02:20:28Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文参考訳（メタデータ） (2024-04-18T15:45:27Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文参考訳（メタデータ） (2024-01-30T14:52:50Z)
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (2023-07-13T16:16:51Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。