論文の概要: How To Control Text Simplification? An Empirical Study of Control Tokens
for Meaning Preserving Controlled Simplification
- arxiv url: http://arxiv.org/abs/2305.14993v1
- Date: Wed, 24 May 2023 10:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:04:44.771557
- Title: How To Control Text Simplification? An Empirical Study of Control Tokens
for Meaning Preserving Controlled Simplification
- Title(参考訳): テキストの簡易化の制御法
簡易化保存のための制御トークンに関する実証的研究
- Authors: Sweta Agrawal and Marine Carpuat
- Abstract要約: 本研究では,異なる制御機構がモデル出力の妥当性と簡易性に与える影響について検討する。
本稿では,文レベルでの制御トークンの予測方法を提案する。
- 参考スコア(独自算出の注目度): 22.996178360362734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text simplification rewrites text to be more readable for a specific
audience, while preserving its meaning. However, determining what makes a text
easy to read depends on who are the intended readers. Recent work has
introduced a wealth of techniques to control output simplicity, ranging from
specifying the desired reading grade level to providing control tokens that
directly encode low-level simplification edit operations. However, it remains
unclear how to set the input parameters that control simplification in
practice. Existing approaches set them at the corpus level, disregarding the
complexity of individual source text, and do not directly evaluate them at the
instance level. In this work, we conduct an empirical study to understand how
different control mechanisms impact the adequacy and simplicity of model
outputs. Based on these insights, we introduce a simple method for predicting
control tokens at the sentence level to enhance the quality of the simplified
text. Predicting control token values using features extracted from the
original complex text and a user-specified degree of complexity improves the
quality of the simplified outputs over corpus-level search-based heuristics.
- Abstract(参考訳): text simplificationはテキストを特定のオーディエンスのために読みやすく書き直し、その意味を維持している。
しかし、テキストの読みやすさの決定は、誰が意図した読者であるかに依存する。
最近の研究は、所望の読み上げグレードレベルを指定することから、低レベルの単純化編集操作を直接エンコードする制御トークンの提供まで、出力の単純さを制御するための豊富な技術を導入している。
しかし、実際に単純化を制御する入力パラメータを設定する方法はまだ不明である。
既存のアプローチでは、個々のソーステキストの複雑さを無視して、それらをコーパスレベルに設定しており、インスタンスレベルで直接評価していません。
本研究では,異なる制御機構がモデル出力の妥当性と簡易性に与える影響を理解するための実証的研究を行う。
これらの知見に基づき,文レベルの制御トークンを簡易に予測し,簡易テキストの品質を向上させる手法を提案する。
元の複雑なテキストから抽出した特徴とユーザ指定の複雑さを用いて制御トークンの値を予測することで、コーパスレベルの検索に基づくヒューリスティックよりも単純化された出力の品質を向上させる。
関連論文リスト
- Automating Easy Read Text Segmentation [2.7309692684728617]
読みやすいテキストは、読み難い人のための情報にアクセスするための主要な形態の1つである。
このタイプのテキストの重要な特徴の1つは、文をより小さな文法セグメントに分割する必要があることである。
マスク付きおよび生成言語モデルと構成的構文解析を併用して,タスクのための新しい手法について検討する。
論文 参考訳(メタデータ) (2024-06-17T12:25:25Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Teaching the Pre-trained Model to Generate Simple Texts for Text
Simplification [59.625179404482594]
トレーニング前の段階では、ランダムなマスキングテキストが通常のテキストに分散しているため、モデルは単純なテキストを生成する能力を得ることができない。
簡単なテキストを生成するための事前学習モデルを学習するための,新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-21T14:03:49Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Text Simplification for Comprehension-based Question-Answering [7.144235435987265]
広く使われているSQuADデータセットの簡易バージョンであるSimple-SQuADをリリースする。
新たに作成したコーパスをベンチマークし,SQuADに基づく質問応答課題における単純化プロセスの効果を検討するためのアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-09-28T18:48:00Z) - CUT: Controllable Unsupervised Text Simplification [0.0]
生成したテキストの出力複雑性を制御するための2つの教師なしメカニズムを提案する。
本研究は,テキストのノイズ翻訳と比較して,テキストの相対的単純さを理解するためにバックトランスレーションアルゴリズムをヌードすることにより,その複雑さを自己監督することを示した。
論文 参考訳(メタデータ) (2020-12-03T14:14:30Z) - Explainable Prediction of Text Complexity: The Missing Preliminaries for
Text Simplification [13.447565774887215]
テキストの単純化により、アクセシビリティーのためにプロのコンテンツが複雑になる。
入力テキストの簡易版を直接生成するために、エンドツーエンドのニューラルネットワークモデルが広く採用されている。
テキストの単純化をタスクのコンパクトなパイプラインに分解することで、プロセスの透明性と説明可能性を確保することができることを示す。
論文 参考訳(メタデータ) (2020-07-31T03:33:37Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。