論文の概要: Text Simplification with Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2510.24365v1
- Date: Tue, 28 Oct 2025 12:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.112883
- Title: Text Simplification with Sentence Embeddings
- Title(参考訳): 文埋め込みによるテキストの簡略化
- Authors: Matthew Shardlow,
- Abstract要約: 高複雑さと低複雑さのテキストを表す文埋め込みの変換を学習する。
文埋め込み空間における学習変換は将来の研究にとって有望な方向であると結論付けている。
- 参考スコア(独自算出の注目度): 4.484170173286332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence embeddings can be decoded to give approximations of the original texts used to create them. We explore this effect in the context of text simplification, demonstrating that reconstructed text embeddings preserve complexity levels. We experiment with a small feed forward neural network to effectively learn a transformation between sentence embeddings representing high-complexity and low-complexity texts. We provide comparison to a Seq2Seq and LLM-based approach, showing encouraging results in our much smaller learning setting. Finally, we demonstrate the applicability of our transformation to an unseen simplification dataset (MedEASI), as well as datasets from languages outside the training data (ES,DE). We conclude that learning transformations in sentence embedding space is a promising direction for future research and has potential to unlock the ability to develop small, but powerful models for text simplification and other natural language generation tasks.
- Abstract(参考訳): 文の埋め込みはデコードして、それらを作成するために使われる元のテキストを近似することができる。
テキストの単純化という文脈でこの効果を探求し、再構築されたテキストの埋め込みが複雑さのレベルを保っていることを示す。
我々は,小フィードフォワードニューラルネットワークを用いて,高複雑さと低複雑さのテキストを表す文埋め込み間の変換を効果的に学習する実験を行った。
Seq2SeqとLLMベースのアプローチと比較し、より小さな学習環境において結果を奨励することを示す。
最後に、トレーニングデータ(ES,DE)以外の言語からのデータセットと同様に、目に見えない単純化データセット(MedEASI)への変換の適用性を実証する。
文埋め込み空間における学習変換は、将来の研究にとって有望な方向であり、テキストの単純化やその他の自然言語生成タスクのための、小さいが強力なモデルを開発する能力を解き放つ可能性があると結論付けている。
関連論文リスト
- Beyond Repetition: Text Simplification and Curriculum Learning for Data-Constrained Pretraining [0.19258299315493077]
本研究では,事前学習におけるカリキュラム学習について研究し,テキストの複雑な順序付けと単純化によるデータ拡張に着目した。
繰り返し露光、低から高の複雑さ、高から低、インターリーブの4つのデータスケジュールをテストする。
その結果, 簡易データの追加により, 繰り返し露光ベースライン上での微調整, ゼロショット性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-09-29T06:54:59Z) - Hallucination Detection and Mitigation in Scientific Text Simplification using Ensemble Approaches: DS@GT at CLEF 2025 SimpleText [0.0]
CLEF 2025 SimpleText Task 2の方法論について述べる。
我々はBERTベースの分類器、意味的類似度尺度、自然言語推論モデル、および大規模言語モデルを活用するアンサンブルフレームワークを構築する。
基底生成にはLLMベースの後編集システムを使用し、元の入力テキストに基づいて単純化を改訂する。
論文 参考訳(メタデータ) (2025-08-15T21:57:27Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Elaborative Simplification: Content Addition and Explanation Generation
in Text Simplification [33.08519864889526]
テキスト単純化におけるコンテンツ追加に関する最初のデータ駆動型研究について述べる。
我々は、文脈的特異性のレンズを通して、エンティティ、アイデア、概念がどのように精巧化されているかを分析する。
本研究は, 作業の複雑さを概説し, 今後の課題について多くの興味深い方向性を示唆するものである。
論文 参考訳(メタデータ) (2020-10-20T05:06:23Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。