論文の概要: Small but Mighty: New Benchmarks for Split and Rephrase
- arxiv url: http://arxiv.org/abs/2009.08560v2
- Date: Sat, 12 Dec 2020 15:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 11:41:57.946909
- Title: Small but Mighty: New Benchmarks for Split and Rephrase
- Title(参考訳): 小さくて美しい: 分割とリフレーズのための新しいベンチマーク
- Authors: Li Zhang, Huaiyu Zhu, Siddhartha Brahma, Yunyao Li
- Abstract要約: Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。
広く使われているベンチマークデータセットは、簡単に利用できる構文的手がかりを普遍的に含んでいることがわかった。
単純なルールベースモデルであっても,最先端モデルと同等に動作可能であることを示す。
- 参考スコア(独自算出の注目度): 18.959219419951083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Split and Rephrase is a text simplification task of rewriting a complex
sentence into simpler ones. As a relatively new task, it is paramount to ensure
the soundness of its evaluation benchmark and metric. We find that the widely
used benchmark dataset universally contains easily exploitable syntactic cues
caused by its automatic generation process. Taking advantage of such cues, we
show that even a simple rule-based model can perform on par with the
state-of-the-art model. To remedy such limitations, we collect and release two
crowdsourced benchmark datasets. We not only make sure that they contain
significantly more diverse syntax, but also carefully control for their quality
according to a well-defined set of criteria. While no satisfactory automatic
metric exists, we apply fine-grained manual evaluation based on these criteria
using crowdsourcing, showing that our datasets better represent the task and
are significantly more challenging for the models.
- Abstract(参考訳): Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。
比較的新しいタスクとして、評価ベンチマークと測定基準の健全性を保証するのが最重要である。
広く使われているベンチマークデータセットは、その自動生成プロセスによって生じる、簡単に活用可能な構文的手がかりを普遍的に含んでいる。
このようなヒントを生かして,単純なルールベースモデルであっても,最先端モデルと同等の性能を発揮することを示す。
このような制限に対処するために、クラウドソースのベンチマークデータセットを2つ収集し、リリースします。
私たちは、それらがはるかに多様な構文を含むことを確認するだけでなく、明確に定義された基準に従って、その品質を注意深く制御します。
十分な自動測定基準は存在しないが,これらの基準に基づいた詳細な手作業による評価をクラウドソーシングを用いて適用することにより,我々のデータセットがタスクをより良く表現し,モデルにとって極めて困難であることを示す。
関連論文リスト
- Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Evaluating Document Simplification: On the Importance of Separately Assessing Simplicity and Meaning Preservation [9.618393813409266]
本稿では,文書レベルの簡易化評価に焦点をあてる。
我々は、意味の保存と単純化のために異なる指標を用いて既存のモデルを比較した。
我々は、単純さのために参照なし計量変種を導入し、モデルは、単純化または意味保存のどちらにも偏っていることを示す。
論文 参考訳(メタデータ) (2024-04-04T08:04:24Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Finding Dataset Shortcuts with Grammar Induction [85.47127659108637]
我々は,NLPデータセットのショートカットの特徴付けと発見に確率文法を用いることを提案する。
具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。
その結果得られた文法は、単純かつ高レベルの機能を含む、多くのデータセットで興味深いショートカット機能を示す。
論文 参考訳(メタデータ) (2022-10-20T19:54:11Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Few-Shot Upsampling for Protest Size Detection [0.0]
粗い文書ラベルをきめ細かなラベルやスパンにアップサンプリングすることは、社会科学研究において一般的な問題である。
ベンチマークデータセットと、社会的に影響のあるタスクのベースラインを提供します。
我々のルールベースモデルは、当初ゼロショット事前訓練されたトランスフォーマー言語モデルより優れていた。
論文 参考訳(メタデータ) (2021-05-24T13:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。