論文の概要: Aligning Sentence Simplification with ESL Learner's Proficiency for Language Acquisition
- arxiv url: http://arxiv.org/abs/2502.11457v1
- Date: Mon, 17 Feb 2025 05:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:03.251152
- Title: Aligning Sentence Simplification with ESL Learner's Proficiency for Language Acquisition
- Title(参考訳): 言語習得のためのESL学習者の習熟度による文の簡易化
- Authors: Guanlin Li, Yuki Arase, Noel Crespi,
- Abstract要約: 本研究は,第2言語学習者の簡易化による英語習得を支援することを目的としている。
本稿では,複雑な文を学習者に適したレベルに単純化すると同時に,目的レベルの語彙的カバレッジを高めることを提案する。
本手法では,トークンレベルの報酬と文レベルの報酬を用いて,目標属性を満たす単純化仮説を探索するために,自己生成出力のモデルを反復的に訓練する。
- 参考スコア(独自算出の注目度): 11.700462697630696
- License:
- Abstract: Text simplification is crucial for improving accessibility and comprehension for English as a Second Language (ESL) learners. This study goes a step further and aims to facilitate ESL learners' language acquisition by simplification. Specifically, we propose simplifying complex sentences to appropriate levels for learners while also increasing vocabulary coverage of the target level in the simplifications. We achieve this without a parallel corpus by conducting reinforcement learning on a large language model. Our method employs token-level and sentence-level rewards, and iteratively trains the model on its self-generated outputs to guide the model to search for simplification hypotheses that satisfy the target attributes. Experiment results on CEFR-SP and TurkCorpus datasets show that the proposed method can effectively increase the frequency and diversity of vocabulary of the target level by more than $20\%$ compared to baseline models, while maintaining high simplification quality.
- Abstract(参考訳): テキストの単純化は、第二言語学習者(ESL)としての英語のアクセシビリティ向上と理解向上に不可欠である。
本研究は,ESL学習者の言語習得を簡易化して促進することを目的としている。
具体的には,複雑な文を学習者に適したレベルに単純化すると同時に,目的レベルの語彙的カバレッジを高めることを提案する。
大規模言語モデルで強化学習を行うことにより、並列コーパスなしでこれを実現する。
提案手法では,トークンレベルの報酬と文レベルの報酬を用いて,目標属性を満たす単純化仮説を探索するために,自己生成出力のモデルを反復的に訓練する。
CEFR-SP と TurkCorpus のデータセットを用いた実験結果から,提案手法はベースラインモデルと比較して,目標レベルの語彙の頻度と多様性を 20 % 以上向上し,高い単純化品質を維持した。
関連論文リスト
- DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [99.93045967478764]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの最小限の学習目標を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - Sentence Simplification via Large Language Models [15.07021692249856]
文の単純化は、複雑な文を本来の意味を保ちながら、より単純な文に言い換えることを目的としている。
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する能力を示した。
論文 参考訳(メタデータ) (2023-02-23T12:11:58Z) - Automatic Lexical Simplification for Turkish [0.0]
トルコ語に対する最初の自動語彙単純化システムを提案する。
近年のテキスト単純化の取り組みは、手作業による簡易コーパスと包括的NLPツールに依存している。
本稿では,事前学習された表現モデル BERT に基づく新しいテキスト単純化パイプラインと形態的特徴を併用して,文法的に正しい意味論的に適切な単語レベルの単純化を生成する。
論文 参考訳(メタデータ) (2022-01-15T15:58:44Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - MUSS: Multilingual Unsupervised Sentence Simplification by Mining
Paraphrases [20.84836431084352]
ラベル付き単純化データを必要としない多言語無教師文簡略化システムであるMUSSを紹介する。
MUSSは、適切な単純化データではなく、文レベルのパラフレーズデータを使用して強力なモデルを訓練する、文単純化の新しいアプローチを使用している。
我々は、英語、フランス語、スペイン語の単純化ベンチマークに対する我々のアプローチを評価し、以前の最高の教師付き結果と密に一致または比較した。
論文 参考訳(メタデータ) (2020-05-01T12:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。