論文の概要: Small but Mighty: New Benchmarks for Split and Rephrase
- arxiv url: http://arxiv.org/abs/2009.08560v2
- Date: Sat, 12 Dec 2020 15:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 11:41:57.946909
- Title: Small but Mighty: New Benchmarks for Split and Rephrase
- Title(参考訳): 小さくて美しい: 分割とリフレーズのための新しいベンチマーク
- Authors: Li Zhang, Huaiyu Zhu, Siddhartha Brahma, Yunyao Li
- Abstract要約: Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。
広く使われているベンチマークデータセットは、簡単に利用できる構文的手がかりを普遍的に含んでいることがわかった。
単純なルールベースモデルであっても,最先端モデルと同等に動作可能であることを示す。
- 参考スコア(独自算出の注目度): 18.959219419951083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Split and Rephrase is a text simplification task of rewriting a complex
sentence into simpler ones. As a relatively new task, it is paramount to ensure
the soundness of its evaluation benchmark and metric. We find that the widely
used benchmark dataset universally contains easily exploitable syntactic cues
caused by its automatic generation process. Taking advantage of such cues, we
show that even a simple rule-based model can perform on par with the
state-of-the-art model. To remedy such limitations, we collect and release two
crowdsourced benchmark datasets. We not only make sure that they contain
significantly more diverse syntax, but also carefully control for their quality
according to a well-defined set of criteria. While no satisfactory automatic
metric exists, we apply fine-grained manual evaluation based on these criteria
using crowdsourcing, showing that our datasets better represent the task and
are significantly more challenging for the models.
- Abstract(参考訳): Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。
比較的新しいタスクとして、評価ベンチマークと測定基準の健全性を保証するのが最重要である。
広く使われているベンチマークデータセットは、その自動生成プロセスによって生じる、簡単に活用可能な構文的手がかりを普遍的に含んでいる。
このようなヒントを生かして,単純なルールベースモデルであっても,最先端モデルと同等の性能を発揮することを示す。
このような制限に対処するために、クラウドソースのベンチマークデータセットを2つ収集し、リリースします。
私たちは、それらがはるかに多様な構文を含むことを確認するだけでなく、明確に定義された基準に従って、その品質を注意深く制御します。
十分な自動測定基準は存在しないが,これらの基準に基づいた詳細な手作業による評価をクラウドソーシングを用いて適用することにより,我々のデータセットがタスクをより良く表現し,モデルにとって極めて困難であることを示す。
関連論文リスト
- Improving Text Embeddings with Large Language Models [63.503320030117145]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Simplicity Level Estimate (SLE): A Learned Reference-Less Metric for
Sentence Simplification [8.479659578608233]
文単純化のための学習評価基準(SLE)を提案する。
SLEは単純さに重点を置いており、人間の判断と相関して既存の指標のほとんどを上回ります。
論文 参考訳(メタデータ) (2023-10-12T09:49:10Z) - Simple and Fast Group Robustness by Automatic Feature Reweighting [45.9024045614187]
突発的特徴への依存を軽減するために,自動特徴強調(AFR)を提案する。
AFRは、標準ERMトレーニングベースモデルの最後の層を重み付き損失で再訓練する。
いくつかの視覚および自然言語分類ベンチマークにおいて、刺激的な属性を伴わずに訓練された競合手法の最良の報告結果を改善する。
論文 参考訳(メタデータ) (2023-06-19T17:19:13Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Finding Dataset Shortcuts with Grammar Induction [85.47127659108637]
我々は,NLPデータセットのショートカットの特徴付けと発見に確率文法を用いることを提案する。
具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。
その結果得られた文法は、単純かつ高レベルの機能を含む、多くのデータセットで興味深いショートカット機能を示す。
論文 参考訳(メタデータ) (2022-10-20T19:54:11Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Few-Shot Upsampling for Protest Size Detection [0.0]
粗い文書ラベルをきめ細かなラベルやスパンにアップサンプリングすることは、社会科学研究において一般的な問題である。
ベンチマークデータセットと、社会的に影響のあるタスクのベースラインを提供します。
我々のルールベースモデルは、当初ゼロショット事前訓練されたトランスフォーマー言語モデルより優れていた。
論文 参考訳(メタデータ) (2021-05-24T13:27:23Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。