論文の概要: Dancing Between Success and Failure: Edit-level Simplification
Evaluation using SALSA
- arxiv url: http://arxiv.org/abs/2305.14458v2
- Date: Sun, 22 Oct 2023 18:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:55:28.914207
- Title: Dancing Between Success and Failure: Edit-level Simplification
Evaluation using SALSA
- Title(参考訳): 成功と失敗のバランス:SALSAを用いた編集レベルの単純化評価
- Authors: David Heineman, Yao Dou, Mounica Maddela, Wei Xu
- Abstract要約: 編集ベースのヒューマンアノテーションフレームワークであるSALSAを紹介する。
我々は、成功と失敗の全範囲をカバーする、言語的に基礎付けられた20の編集タイプを開発する。
LENS-SALSAは,文品質と単語品質を同時に予測するために訓練された,参照不要な自動単純化指標である。
- 参考スコア(独自算出の注目度): 21.147261039292026
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (e.g., GPT-4) are uniquely capable of producing highly
rated text simplification, yet current human evaluation methods fail to provide
a clear understanding of systems' specific strengths and weaknesses. To address
this limitation, we introduce SALSA, an edit-based human annotation framework
that enables holistic and fine-grained text simplification evaluation. We
develop twenty one linguistically grounded edit types, covering the full
spectrum of success and failure across dimensions of conceptual, syntactic and
lexical simplicity. Using SALSA, we collect 19K edit annotations on 840
simplifications, revealing discrepancies in the distribution of simplification
strategies performed by fine-tuned models, prompted LLMs and humans, and find
GPT-3.5 performs more quality edits than humans, but still exhibits frequent
errors. Using our fine-grained annotations, we develop LENS-SALSA, a
reference-free automatic simplification metric, trained to predict sentence-
and word-level quality simultaneously. Additionally, we introduce word-level
quality estimation for simplification and report promising baseline results.
Our data, new metric, and annotation toolkit are available at
https://salsa-eval.com.
- Abstract(参考訳): 大規模言語モデル(gpt-4など)は、高度に評価されたテキスト簡易化を独特に生成できるが、現在の評価手法ではシステムの強みと弱みを明確に理解できない。
この制限に対処するため、SALSAは、完全かつきめ細かいテキストの簡易化評価を可能にする編集ベースのヒューマンアノテーションフレームワークである。
我々は, 概念的, 構文的, 語彙的単純さの観点から, 成功と失敗のスペクトルを網羅した20種類の編集型を開発した。
SALSAを用いて,840の単純化に対して19Kの編集アノテーションを収集し,微調整されたモデルによる単純化戦略の分布の相違を明らかにし,LLMや人間に刺激を与え,GPT-3.5が人間よりも高品質な編集を行うことを示した。
より詳細なアノテーションを用いて,文と単語レベルの品質を同時に予測するために訓練された,参照不要な自動単純化指標であるLENS-SALSAを開発した。
さらに,簡易化のための単語レベルの品質推定と,期待できる基準結果の報告を行う。
当社のデータ、新しいメトリック、アノテーションツールキットはhttps://salsa-eval.com.com.comで利用可能です。
関連論文リスト
- An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment [10.816677544269782]
我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - An LLM-Enhanced Adversarial Editing System for Lexical Simplification [10.519804917399744]
Lexical Simplificationは、語彙レベルでのテキストの簡略化を目的としている。
既存のメソッドはアノテーション付きデータに大きく依存している。
並列コーパスのない新しいLS法を提案する。
論文 参考訳(メタデータ) (2024-02-22T17:04:30Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [19.71833039463104]
本稿では,Plain Language Summarization (PLS) のメトリクスを評価するための,詳細なメタ評価テストベッド APPLS を提案する。
我々は、PSS計量が捉えるべき以前の研究から着想を得た4つの基準に沿って摂動のセットを定義する:情報性、単純化、一貫性、忠実さ。
PLSにおけるテキストの単純化を評価するための新しい指標であるPOMMEを導入し、ドメイン内言語モデルとドメイン外言語モデルとの正規化パープレキシティ差として算出する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Evaluating Factuality in Text Simplification [43.94402649899681]
標準的な単純化データセットから抽出された参照と最先端のモデル出力の両方を解析するために,エラーの分類を導入する。
既存の評価指標では捉えられないエラーが、両方に現れることがよくあります。
論文 参考訳(メタデータ) (2022-04-15T17:37:09Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。