論文の概要: EditEval: An Instruction-Based Benchmark for Text Improvements
- arxiv url: http://arxiv.org/abs/2209.13331v1
- Date: Tue, 27 Sep 2022 12:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 14:41:26.156803
- Title: EditEval: An Instruction-Based Benchmark for Text Improvements
- Title(参考訳): EditEval: テキスト改善のためのインストラクションベースのベンチマーク
- Authors: Jane Dwivedi-Yu, Timo Schick, Zhengbao Jiang, Maria Lomeli, Patrick
Lewis, Gautier Izacard, Edouard Grave, Sebastian Riedel, Fabio Petroni
- Abstract要約: 編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
- 参考スコア(独自算出の注目度): 73.5918084416016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluation of text generation to date has primarily focused on content
created sequentially, rather than improvements on a piece of text. Writing,
however, is naturally an iterative and incremental process that requires
expertise in different modular skills such as fixing outdated information or
making the style more consistent. Even so, comprehensive evaluation of a
model's capacity to perform these skills and the ability to edit remains
sparse. This work presents EditEval: An instruction-based, benchmark and
evaluation suite that leverages high-quality existing and new datasets for
automatic evaluation of editing capabilities such as making text more cohesive
and paraphrasing. We evaluate several pre-trained models, which shows that
InstructGPT and PEER perform the best, but that most baselines fall below the
supervised SOTA, particularly when neutralizing and updating information. Our
analysis also shows that commonly used metrics for editing tasks do not always
correlate well, and that optimization for prompts with the highest performance
does not necessarily entail the strongest robustness to different models.
Through the release of this benchmark and a publicly available leaderboard
challenge, we hope to unlock future research in developing models capable of
iterative and more controllable editing.
- Abstract(参考訳): 現在までのテキスト生成の評価は、主にテキストの改善ではなく、逐次的に作成されたコンテンツに焦点を当てている。
しかし、書き込みは当然反復的で漸進的なプロセスであり、古い情報を修正したり、スタイルをより一貫性のあるものにしたりといった様々なモジュラースキルの専門知識を必要とする。
それでも、これらのスキルと編集能力を実行するモデルの能力に関する総合的な評価は、いまだに乏しいままである。
命令ベースのベンチマークと評価スイートで、高品質な既存のデータセットと新しいデータセットを活用し、テキストの凝集性やパラフレーズ化などの編集機能を自動評価する。
InstructGPT と PEER が最良であることを示す事前学習モデルをいくつか評価するが,情報中和や更新を行う場合,ほとんどのベースラインはSOTA の監督下にある。
分析の結果、タスク編集によく使われるメトリクスは必ずしも相関が良くなく、最もパフォーマンスの高いプロンプトの最適化は必ずしも異なるモデルに強い頑健さを伴わないことがわかった。
このベンチマークのリリースと公開のleaderboardチャレンジを通じて、反復的でより制御可能な編集が可能なモデルの開発における将来の研究を解き放ちたいと考えています。
関連論文リスト
- Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [17.202017214385826]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。
6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。
以上の結果から,再ランク付けモデルが後続命令の検索モデルを上回っているのに対して,特定の属性を扱う上では依然として課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-31T11:47:21Z) - EditBoard: Towards A Comprehensive Evaluation Benchmark for Text-based Video Editing Models [16.045012576543474]
テキストベースのビデオ編集は有望な分野として現れ、テキストプロンプトに基づいたビデオの正確な修正を可能にしている。
既存の評価は限定的で一貫性がなく、通常、全体的なパフォーマンスを単一のスコアで要約する。
テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
論文 参考訳(メタデータ) (2024-09-15T08:43:18Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - XATU: A Fine-grained Instruction-based Benchmark for Explainable Text Updates [7.660511135287692]
本稿では,微粒な命令ベースの説明可能なテキスト編集用に設計された最初のベンチマークであるXATUを紹介する。
XATUは、語彙、構文、意味論、知識集約的な編集といった難易度の細かいテキスト編集タスクについて検討している。
各種編集タスクにおける命令チューニングの有効性と基礎となるアーキテクチャの影響を実証する。
論文 参考訳(メタデータ) (2023-09-20T04:58:59Z) - Improving Iterative Text Revision by Learning Where to Edit from Other
Revision Tasks [11.495407637511878]
反復的テキストリビジョンは文法的誤りの修正、読みやすさの向上や文脈的適切性の向上、文書全体の文構造の再編成によってテキスト品質を改善する。
近年の研究では、人間によるテキストからの反復的な修正プロセスにおいて、様々な種類の編集の理解と分類に焦点が当てられている。
我々は,編集可能なスパンを対応する編集意図で明示的に検出することにより,有用な編集を反復的に生成するエンド・ツー・エンドテキスト・リビジョン・システムの構築を目指している。
論文 参考訳(メタデータ) (2022-12-02T18:10:43Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Understanding Iterative Revision from Human-Written Text [10.714872525208385]
IteraTeRは、反復的に修正されたテキストの最初の大規模、複数ドメイン、編集意図の注釈付きコーパスである。
テキストのリビジョンプロセスをよりよく理解し、編集意図と執筆品質の間に重要なつながりを築き上げます。
論文 参考訳(メタデータ) (2022-03-08T01:47:42Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。