論文の概要: Beyond Repetition: Text Simplification and Curriculum Learning for Data-Constrained Pretraining
- arxiv url: http://arxiv.org/abs/2509.24356v1
- Date: Mon, 29 Sep 2025 06:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.800365
- Title: Beyond Repetition: Text Simplification and Curriculum Learning for Data-Constrained Pretraining
- Title(参考訳): 反復を超えて:データ制約付き事前学習のためのテキストの簡略化とカリキュラム学習
- Authors: Matthew Theodore Roque, Dan John Velasco,
- Abstract要約: 本研究では,事前学習におけるカリキュラム学習について研究し,テキストの複雑な順序付けと単純化によるデータ拡張に着目した。
繰り返し露光、低から高の複雑さ、高から低、インターリーブの4つのデータスケジュールをテストする。
その結果, 簡易データの追加により, 繰り返し露光ベースライン上での微調整, ゼロショット性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 0.19258299315493077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most studies on language model pretraining focus on large datasets, leaving open questions about optimization in data-constrained settings. In such settings, the effects of training data order and of including alternative versions of the same text remain underexplored. We address this by studying curriculum learning in pretraining, focusing on text-complexity ordering and data augmentation via simplification. We ask: (1) Does simplifying texts enhance representation quality more than reusing the original data? and (2) Does ordering data by text complexity yield better representations? To answer, we build on a pair of parallel corpora where human-written paragraphs are aligned with LLM-simplified variants, and test four data schedules: repeated exposure, low-to-high complexity, high-to-low, and interleaved. We analyze models' representation quality from a sample efficiency perspective via fine-tuning, as well as its zero-shot performance on linguistic knowledge, entity tracking, world knowledge, and commonsense reasoning. Our findings show that adding simplified data improves fine-tuning and zero-shot performance over a repeated-exposure baseline: smaller models benefit from low-to-high complexity, while larger models perform better with interleaved ordering.
- Abstract(参考訳): 言語モデル事前トレーニングに関するほとんどの研究は、大規模なデータセットに焦点を当て、データ制約された設定における最適化に関するオープンな疑問を残している。
このような設定では、データ順序のトレーニングと、同じテキストの代替版を含める効果は未定のままである。
そこで本稿では,事前学習におけるカリキュラム学習の学習,テキストの複雑な順序付け,単純化によるデータ拡張に着目して,この問題に対処する。
1)テキストの簡略化は、元のデータを再利用するよりも表現の質を高めるか?
そして(2) テキストの複雑さによるデータの順序付けはより良い表現をもたらすか?
そこで本研究では,LLMを単純化した変種に対応する並列コーパスを構築し,繰り返し露光,低-高複雑性,高-低,インターリーブの4つのデータスケジュールを検証した。
我々は, モデル表現の質を, 微調整によるサンプル効率の観点から分析し, 言語知識, 実体追跡, ワールドナレッジ, コモンセンス推論におけるゼロショット性能について検討した。
この結果より, 小型モデルは低次から高次に複雑化することの恩恵を受け, 大規模モデルはインターリーブ順序付けにより性能が向上することがわかった。
関連論文リスト
- Rethinking the Role of Text Complexity in Language Model Pretraining [0.19258299315493077]
テキストの複雑さとは、テキストが読みにくいことを指す。
大規模な言語モデルを用いて人文テキストを単純化し,オリジナルデータと簡易データの両方で因果モデルをスクラッチから事前訓練する。
パープレキシティは、モデルのキャパシティとテキストの複雑さの間の相互作用に敏感である。
論文 参考訳(メタデータ) (2025-09-20T06:33:01Z) - Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [92.85086256871027]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
混在するテキストの約82%が、そうでなければ破棄されるであろう、低品質なドキュメントを変換することによるものであることを実証しています。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。