論文の概要: WikiSplit++: Easy Data Refinement for Split and Rephrase
- arxiv url: http://arxiv.org/abs/2404.09002v1
- Date: Sat, 13 Apr 2024 13:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 17:43:54.766989
- Title: WikiSplit++: Easy Data Refinement for Split and Rephrase
- Title(参考訳): WikiSplit++: スプリットとリフレーズを簡単にするデータリファインメント
- Authors: Hayato Tsukagoshi, Tsutomu Hirao, Makoto Morishita, Katsuki Chousa, Ryohei Sasano, Koichi Takeda,
- Abstract要約: Split と Rephrase は複雑な文を同じ意味を持つ複数の単純文に分割する。
我々は、WikiSplitのインスタンスを削除してWikiSplit++を作成し、複雑な文は、より単純な文の少なくとも1つを含まない。
本手法は,幻覚測定の指標である分割数とエンテーメント比において有意な利得を得た。
- 参考スコア(独自算出の注目度): 19.12982606032723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Split and Rephrase, which splits a complex sentence into multiple simple sentences with the same meaning, improves readability and enhances the performance of downstream tasks in natural language processing (NLP). However, while Split and Rephrase can be improved using a text-to-text generation approach that applies encoder-decoder models fine-tuned with a large-scale dataset, it still suffers from hallucinations and under-splitting. To address these issues, this paper presents a simple and strong data refinement approach. Here, we create WikiSplit++ by removing instances in WikiSplit where complex sentences do not entail at least one of the simpler sentences and reversing the order of reference simple sentences. Experimental results show that training with WikiSplit++ leads to better performance than training with WikiSplit, even with fewer training instances. In particular, our approach yields significant gains in the number of splits and the entailment ratio, a proxy for measuring hallucinations.
- Abstract(参考訳): Split and Rephraseのタスクは、複雑な文を同じ意味の複数の単純文に分割し、読みやすさを改善し、自然言語処理(NLP)における下流タスクのパフォーマンスを向上させる。
しかし、大規模なデータセットで微調整されたエンコーダ・デコーダモデルを適用するテキスト・ツー・テキスト生成アプローチを使用して、SplitとRephraseを改善することができるが、それでも幻覚とアンダースプリッティングに悩まされている。
これらの問題に対処するために,本稿では,シンプルで強力なデータ精錬手法を提案する。
ここでは、複雑な文が少なくとも1つの単純な文を含まないWikiSplit++のインスタンスを削除し、参照単純文の順序を逆転させることにより、WikiSplit++を作成する。
実験の結果、WikiSplit++でのトレーニングは、より少ないトレーニングインスタンスであっても、WikiSplitでのトレーニングよりもパフォーマンスが向上することが示された。
特に,本手法は,幻覚測定の指標である分割数と包含率において有意な利得が得られる。
関連論文リスト
- Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification [0.0]
本稿では,複合文と複合文を簡易文の集合に分割・言い換える,古典的な構文的依存性に基づく手法を提案する。
また,文の構文的複雑さを同定し,測定するアルゴリズムも導入した。
この研究は、WSDM-2023 Conferenceにおいて、Learning with Knowledge Graphs (IWLKG) に関する国際ワークショップで受け入れられ、発表された。
論文 参考訳(メタデータ) (2023-04-16T13:13:58Z) - Benchmarking Long-tail Generalization with Likelihood Splits [20.47194488430863]
本稿では,既存のデータセットを再分割することで,分布の尾に一般化する必要のある,挑戦的なベンチマークを作成する手法を提案する。
事前訓練された言語モデルによって低い確率で割り当てられた例をテストセットに配置し、よりありそうな例をトレーニングセットに配置する「Likelihood Splits」を作成します。
論文 参考訳(メタデータ) (2022-10-13T07:27:14Z) - BiSECT: Learning to Split and Rephrase Sentences with Bitexts [25.385804867037937]
この分割・言い換え処理のための新しいデータセットと新しいモデルを導入する。
BiSECTトレーニングデータは、100万の長い英語文と、より短く、意味に等価な英語文からなる。
コーパスの例を分類し、これらのカテゴリを新しいモデルで使用することにより、入力文の特定の領域を分割して編集できるようにします。
論文 参考訳(メタデータ) (2021-09-10T17:30:14Z) - ABCD: A Graph Framework to Convert Complex Sentences to a Covering Set
of Simple Sentences [7.639576741566091]
本稿では,各複雑な文を,ソースのテンション付き節から派生した単純な文に分解するタスクを提案する。
私たちのニューラルモデルは、単語の隣接性と文法的依存関係を組み合わせたグラフのアクセプション、ブレーク、コピー、ドロップの各要素を学びます。
複雑な文分解の訓練と評価を目的とした新しいデータセットであるDeSSEを紹介する。
論文 参考訳(メタデータ) (2021-06-22T19:31:28Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Fact-aware Sentence Split and Rephrase with Permutation Invariant
Training [93.66323661321113]
Sentence Split と Rephrase は、複雑な文をいくつかの単純な文に分解し、その意味を保存することを目的としている。
従来の研究では、パラレル文対からのSeq2seq学習によってこの問題に対処する傾向があった。
本稿では,この課題に対するSeq2seq学習における順序分散の効果を検証するために,置換訓練を導入する。
論文 参考訳(メタデータ) (2020-01-16T07:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。