Fugu-MT 論文翻訳(概要): Dancing Between Success and Failure: Edit-level Simplification Evaluation using SALSA

論文の概要: Dancing Between Success and Failure: Edit-level Simplification Evaluation using SALSA

arxiv url: http://arxiv.org/abs/2305.14458v2
Date: Sun, 22 Oct 2023 18:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 11:55:28.914207
Title: Dancing Between Success and Failure: Edit-level Simplification Evaluation using SALSA
Title（参考訳）: 成功と失敗のバランス:SALSAを用いた編集レベルの単純化評価
Authors: David Heineman, Yao Dou, Mounica Maddela, Wei Xu
Abstract要約: 編集ベースのヒューマンアノテーションフレームワークであるSALSAを紹介する。我々は、成功と失敗の全範囲をカバーする、言語的に基礎付けられた20の編集タイプを開発する。 LENS-SALSAは,文品質と単語品質を同時に予測するために訓練された,参照不要な自動単純化指標である。
参考スコア（独自算出の注目度）: 21.147261039292026
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (e.g., GPT-4) are uniquely capable of producing highly rated text simplification, yet current human evaluation methods fail to provide a clear understanding of systems' specific strengths and weaknesses. To address this limitation, we introduce SALSA, an edit-based human annotation framework that enables holistic and fine-grained text simplification evaluation. We develop twenty one linguistically grounded edit types, covering the full spectrum of success and failure across dimensions of conceptual, syntactic and lexical simplicity. Using SALSA, we collect 19K edit annotations on 840 simplifications, revealing discrepancies in the distribution of simplification strategies performed by fine-tuned models, prompted LLMs and humans, and find GPT-3.5 performs more quality edits than humans, but still exhibits frequent errors. Using our fine-grained annotations, we develop LENS-SALSA, a reference-free automatic simplification metric, trained to predict sentence- and word-level quality simultaneously. Additionally, we introduce word-level quality estimation for simplification and report promising baseline results. Our data, new metric, and annotation toolkit are available at https://salsa-eval.com.
Abstract（参考訳）: 大規模言語モデル(gpt-4など)は、高度に評価されたテキスト簡易化を独特に生成できるが、現在の評価手法ではシステムの強みと弱みを明確に理解できない。この制限に対処するため、SALSAは、完全かつきめ細かいテキストの簡易化評価を可能にする編集ベースのヒューマンアノテーションフレームワークである。我々は, 概念的, 構文的, 語彙的単純さの観点から, 成功と失敗のスペクトルを網羅した20種類の編集型を開発した。 SALSAを用いて,840の単純化に対して19Kの編集アノテーションを収集し,微調整されたモデルによる単純化戦略の分布の相違を明らかにし,LLMや人間に刺激を与え,GPT-3.5が人間よりも高品質な編集を行うことを示した。より詳細なアノテーションを用いて,文と単語レベルの品質を同時に予測するために訓練された,参照不要な自動単純化指標であるLENS-SALSAを開発した。さらに,簡易化のための単語レベルの品質推定と,期待できる基準結果の報告を行う。当社のデータ、新しいメトリック、アノテーションツールキットはhttps://salsa-eval.com.com.comで利用可能です。

関連論文リスト

Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification [13.381644813030725]
様々なサイズのモデルによって生成される単純化された文を特徴付けるテキスト単純化のための合成ベンチマークを提案する。評価の結果,評価基準はアノテータ間の高い一致を示し,予想される傾向を反映していることがわかった。第2に, LLM審査員(LLMs-as-a-jury)による自動評価は, テキスト簡易化評価において一貫した評価を得るのに十分であることを示す。
論文参考訳（メタデータ） (2025-04-13T01:36:47Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文参考訳（メタデータ） (2024-09-30T12:36:25Z)
Learning to Rewrite: Generalized LLM-Generated Text Detection [19.9477991969521]
大規模言語モデル(LLM)は、非現実的コンテンツを生成し、大規模に偽情報を拡散する際に大きなリスクをもたらす。本稿では、未知の領域に例外的な一般化を伴うAI生成テキストを検出するための新しいフレームワークであるLearning2Rewriteを紹介する。
論文参考訳（メタデータ） (2024-08-08T05:53:39Z)
Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文参考訳（メタデータ） (2024-06-18T18:59:37Z)
An In-depth Evaluation of GPT-4 in Sentence Simplification with Error-based Human Assessment [10.816677544269782]
我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
論文参考訳（メタデータ） (2024-03-08T00:19:24Z)
Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文参考訳（メタデータ） (2024-02-27T14:16:19Z)
An LLM-Enhanced Adversarial Editing System for Lexical Simplification [10.519804917399744]
Lexical Simplificationは、語彙レベルでのテキストの簡略化を目的としている。既存のメソッドはアノテーション付きデータに大きく依存している。並列コーパスのない新しいLS法を提案する。
論文参考訳（メタデータ） (2024-02-22T17:04:30Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。 ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文参考訳（メタデータ） (2023-01-09T10:33:14Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。