論文の概要: Dancing Between Success and Failure: Edit-level Simplification
Evaluation using SALSA
- arxiv url: http://arxiv.org/abs/2305.14458v2
- Date: Sun, 22 Oct 2023 18:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:55:28.914207
- Title: Dancing Between Success and Failure: Edit-level Simplification
Evaluation using SALSA
- Title(参考訳): 成功と失敗のバランス:SALSAを用いた編集レベルの単純化評価
- Authors: David Heineman, Yao Dou, Mounica Maddela, Wei Xu
- Abstract要約: 編集ベースのヒューマンアノテーションフレームワークであるSALSAを紹介する。
我々は、成功と失敗の全範囲をカバーする、言語的に基礎付けられた20の編集タイプを開発する。
LENS-SALSAは,文品質と単語品質を同時に予測するために訓練された,参照不要な自動単純化指標である。
- 参考スコア(独自算出の注目度): 21.147261039292026
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (e.g., GPT-4) are uniquely capable of producing highly
rated text simplification, yet current human evaluation methods fail to provide
a clear understanding of systems' specific strengths and weaknesses. To address
this limitation, we introduce SALSA, an edit-based human annotation framework
that enables holistic and fine-grained text simplification evaluation. We
develop twenty one linguistically grounded edit types, covering the full
spectrum of success and failure across dimensions of conceptual, syntactic and
lexical simplicity. Using SALSA, we collect 19K edit annotations on 840
simplifications, revealing discrepancies in the distribution of simplification
strategies performed by fine-tuned models, prompted LLMs and humans, and find
GPT-3.5 performs more quality edits than humans, but still exhibits frequent
errors. Using our fine-grained annotations, we develop LENS-SALSA, a
reference-free automatic simplification metric, trained to predict sentence-
and word-level quality simultaneously. Additionally, we introduce word-level
quality estimation for simplification and report promising baseline results.
Our data, new metric, and annotation toolkit are available at
https://salsa-eval.com.
- Abstract(参考訳): 大規模言語モデル(gpt-4など)は、高度に評価されたテキスト簡易化を独特に生成できるが、現在の評価手法ではシステムの強みと弱みを明確に理解できない。
この制限に対処するため、SALSAは、完全かつきめ細かいテキストの簡易化評価を可能にする編集ベースのヒューマンアノテーションフレームワークである。
我々は, 概念的, 構文的, 語彙的単純さの観点から, 成功と失敗のスペクトルを網羅した20種類の編集型を開発した。
SALSAを用いて,840の単純化に対して19Kの編集アノテーションを収集し,微調整されたモデルによる単純化戦略の分布の相違を明らかにし,LLMや人間に刺激を与え,GPT-3.5が人間よりも高品質な編集を行うことを示した。
より詳細なアノテーションを用いて,文と単語レベルの品質を同時に予測するために訓練された,参照不要な自動単純化指標であるLENS-SALSAを開発した。
さらに,簡易化のための単語レベルの品質推定と,期待できる基準結果の報告を行う。
当社のデータ、新しいメトリック、アノテーションツールキットはhttps://salsa-eval.com.com.comで利用可能です。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment [10.816677544269782]
我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - An LLM-Enhanced Adversarial Editing System for Lexical Simplification [10.519804917399744]
Lexical Simplificationは、語彙レベルでのテキストの簡略化を目的としている。
既存のメソッドはアノテーション付きデータに大きく依存している。
並列コーパスのない新しいLS法を提案する。
論文 参考訳(メタデータ) (2024-02-22T17:04:30Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。