論文の概要: Rethinking the Role of Text Complexity in Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2509.16551v2
- Date: Sat, 04 Oct 2025 06:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.748817
- Title: Rethinking the Role of Text Complexity in Language Model Pretraining
- Title(参考訳): 言語モデル事前学習におけるテキスト複雑度の役割の再考
- Authors: Dan John Velasco, Matthew Theodore Roque,
- Abstract要約: 我々は,大規模な言語モデルを用いて人文テキストを単純化し,原文と簡略なデータのスクラッチから因果モデルを事前訓練し,それらを微調整,ゼロショット設定で評価する。
パープレキシティは、モデルキャパシティとテキストの複雑さの相互作用に敏感である。より小さなモデルは、単純なテキストよりもはるかに小さく、テキストの複雑さは微調整評価にはほとんど影響しない。
- 参考スコア(独自算出の注目度): 0.19258299315493077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving pretraining data quality and size is known to boost downstream performance, but the role of text complexity--how hard a text is to read--remains less explored. We reduce surface-level complexity (shorter sentences, simpler words, simpler structure) while keeping core content approximately constant and ask: (i) How does complexity affect language modeling across model sizes? (ii) Can useful representations be learned from simpler text alone? (iii) How does pretraining text complexity influence downstream language understanding? We simplify human-written texts using a large language model, pretrain causal models (28M-500M) from scratch on original vs. simplified data, and evaluate them in fine-tuning and zero-shot setups. We find that perplexity is sensitive to the interaction between model capacity and text complexity--smaller models degrade far less on simpler texts--while text complexity has little impact on fine-tuning evaluations, with zero-shot evaluations indicating that simpler texts benefit performance on linguistic knowledge tasks, whereas more complex texts favor tasks requiring world knowledge and entity tracking. Our findings suggest that different types of data diversity affect transfer and zero-shot performance differently, providing insight into tailoring data curation to specific goals.
- Abstract(参考訳): データ品質とサイズを事前学習することで、ダウンストリームのパフォーマンスが向上することが知られている。
我々は,主成分をほぼ一定に保ちながら,表面レベルの複雑性(shorter sentences, simple words, simple structure)を低減する。
i) 複雑さは、モデルのサイズをまたいだ言語モデリングにどのように影響しますか?
(ii)単純なテキストだけで有用な表現を学べるだろうか?
3) テキストの複雑さの事前学習は、下流言語理解にどのように影響するか?
我々は,大規模な言語モデルを用いて人文テキストを単純化し,オリジナルデータと簡易データとのスクラッチから事前訓練因果モデル(28M-500M)を抽出し,微調整およびゼロショット設定で評価する。
テキストの複雑さは微調整評価にはほとんど影響を与えず、ゼロショット評価では、より単純なテキストは言語知識のタスクのパフォーマンスに寄与するが、より複雑なテキストは世界の知識や実体の追跡を必要とするタスクを好んでいる。
以上の結果から,異なる種類のデータ多様性がトランスファーとゼロショットのパフォーマンスに異なる影響を与えることが示唆され,特定の目標に対するデータキュレーションの調整に関する洞察が得られた。
関連論文リスト
- LC-Score: Reference-less estimation of Text Comprehension Difficulty [0.0]
我々は、参照なしのフランス語テキストに対して、テキスト理解度を訓練するための簡単なアプローチであるtextscLC-Scoreを提示する。
我々の目的は,テキストがtextitLangage Clair (LC, textitClear Language) ガイドラインに適合する範囲を定量的に把握することである。
i) 統計モデルの学習に使用される言語的動機付け指標を使用すること,(ii) 事前学習された言語モデルを利用したテキストから直接ニューラルラーニングを行うこと,の2つのアプローチを探索する。
論文 参考訳(メタデータ) (2023-10-04T11:49:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification [0.0]
本稿では,複合文と複合文を簡易文の集合に分割・言い換える,古典的な構文的依存性に基づく手法を提案する。
また,文の構文的複雑さを同定し,測定するアルゴリズムも導入した。
この研究は、WSDM-2023 Conferenceにおいて、Learning with Knowledge Graphs (IWLKG) に関する国際ワークショップで受け入れられ、発表された。
論文 参考訳(メタデータ) (2023-04-16T13:13:58Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Lexical Complexity Controlled Sentence Generation [6.298911438929862]
語彙複雑性制御文生成の新しいタスクを提案する。
学級の読み書き、言語教育、取得などの分野では大きな可能性を秘めている。
本稿では,複雑性の埋め込みに基づく,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T11:03:56Z) - Uniform Complexity for Text Generation [4.867923281108005]
テキスト生成のための統一複雑度(UCTG)は,生成モデルに一様言語特性をプロンプトに関して観察させるという課題を提起する新しいベンチマークテストである。
GPT-2のようなモデルは、プロフェッショナルなテキストで微調整しても、代々使われる入力プロンプトの複雑さを維持するのに苦労している。
論文 参考訳(メタデータ) (2022-04-11T15:19:47Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Explainable Prediction of Text Complexity: The Missing Preliminaries for
Text Simplification [13.447565774887215]
テキストの単純化により、アクセシビリティーのためにプロのコンテンツが複雑になる。
入力テキストの簡易版を直接生成するために、エンドツーエンドのニューラルネットワークモデルが広く採用されている。
テキストの単純化をタスクのコンパクトなパイプラインに分解することで、プロセスの透明性と説明可能性を確保することができることを示す。
論文 参考訳(メタデータ) (2020-07-31T03:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。