論文の概要: Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies
- arxiv url: http://arxiv.org/abs/2605.20602v1
- Date: Wed, 20 May 2026 01:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.426959
- Title: Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies
- Title(参考訳): 自己学習はフラットな言語ではない - 再構築する: 表面マーカは、深い構文が死ぬ間、増幅する
- Authors: Ming Liu,
- Abstract要約: 言語モデル自身の出力に対する連続的な自己学習は、フラット化のプロセスとして広く特徴づけられる。
この特徴が不完全であることを示す。
5つのモデルでの11世代にわたるセルフトレーニングでは、言語は均一にフラット化されていない。
- 参考スコア(独自算出の注目度): 4.738949927143789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Successive self-training on a language model's own outputs is widely characterized as a process of flattening: diversity drops, distributions narrow, and the text becomes "more like itself." We provide evidence that this characterization is incomplete. Across eleven generations of self-training on five models (GPT-2 124M, Pythia-410M, Pythia-1.4B, OPT-1.3B, Pythia-2.8B), language is not flattened uniformly -- it is restructured. Surface markers (discourse connectives, hedges, em-dashes) rise, while mid- and deep-syntactic structures (questions, parentheticals, passives, subjunctives) collapse. We formalize this asymmetric collapse as the Structural Depth Hypothesis (SDH): the per-generation decay rate of a linguistic feature is predicted primarily by its structural depth -- the number of nested syntactic dependencies it requires -- and only secondarily by its generation-zero output frequency. Pooling 17-feature panels from five models spanning three architecture families (N=85), the pooled Spearman correlation is rho=0.540 (p < 10^{-6}; cluster-bootstrap 95% CI [0.434, 0.634]), while frequency is a substantially weaker predictor (rho=0.225). A matched human-text fine-tuning control yields rho=0.039 (p=0.88), confirming the gradient is self-training-specific. We further document a Superficial Complexity Paradox: aggregate complexity proxies (dep-tree depth, TTR, word length) all rise as the underlying clause structure dies, with direct implications for training-data curation and LLM-text detection.
- Abstract(参考訳): 言語モデル自身の出力に対する逐次的な自己学習は、多様性の低下、分布の狭さ、そしてテキストが"それ自身に似ている"という、フラット化のプロセスとして広く特徴づけられている。
この特徴が不完全であることを示す。
5つのモデル(GPT-2 124M、Pythia-410M、Pythia-1.4B、OPT-1.3B、Pythia-2.8B)における11世代にわたる自己訓練は、言語が均一にフラット化されていない。
表面マーカー(コネクティビティ、ヘッジ、エムダッシュ)は上昇し、中層および深層シンタクティクス構造(クエスト、括弧、パッシブ、サブジャンクティブ)は崩壊する。
この非対称的な崩壊を構造的深さ仮説 (SDH) として定式化する: 言語的特徴の世代ごとの崩壊速度は、その構造的深さ(ネストされた構文的依存関係の数)によって予測され、第2に生成ゼロ出力周波数によって予測される。
3つのアーキテクチャファミリにまたがる5つのモデル(N=85)から17機能パネルをプールし、プールされたスピアマン相関はrho=0.540 (p < 10^{-6}; クラスタブートストラップ95% CI [0.434, 0.634])であり、周波数はより弱い予測器(rho=0.225)である。
一致した人文微調整制御はrho=0.039(p=0.88)となり、勾配が自己学習特異的であることを確認する。
さらに、表層複雑度パラドックスを文書化する: 集合複雑性プロキシ(deep-tree depth, TTR, word length)は、下層の節構造が死ぬにつれて増加し、トレーニングデータキュレーションやLLMテキスト検出に直接影響する。
関連論文リスト
- Heterogeneous Ordinal Structure Learning with Bayesian Nonparametric Complexity Discovery [1.089614199781423]
既存の順序構造学習者は、すべての回答者に対して共有指向非巡回グラフ(DAG)を仮定する。
最近の順序的グラフィカルモデルアプローチは、クラスタ固有のDAG推定ではなく、サブグループ発見に焦点を当てている。
論文 参考訳(メタデータ) (2026-05-05T18:32:49Z) - ATLAS: Constitution-Conditioned Latent Geometry and Redistribution Across Language Models and Neural Perturbation Data [0.0]
構成条件付きポストトレーニングは、モデルが学習した表現幾何学の構造化摂動として分析することができる。
グラフ, モデル, 基板間の構成による隠れ状態構造をトレースする, 幾何学第一のプログラムATLASを紹介する。
論文 参考訳(メタデータ) (2026-04-19T23:26:02Z) - On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning [63.41902113656453]
長いチェーン・オブ・ソート(CoT)軌道上でのSFT(Supervised Fine-Tuning)は、大きな推論モデルを構築する上で重要なフェーズとなっている。
2つの競合モデルによって生成された2つの検証されたCoT軌道源を用いて比較研究を行う。
textttDeepSeek-R1-0528データ上のSFTは、トレーニング損失を著しく低減するが、一般化性能は著しく低下する。
論文 参考訳(メタデータ) (2026-04-02T07:00:54Z) - Semantic Chunking and the Entropy of Natural Language [1.3592625530347717]
印刷された英語のエントロピー率は1文字あたり約1ビットと推定されている。
本稿では,自然言語の複雑なマルチスケール構造を捉えようとする統計モデルを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:58:10Z) - The "Robert Boulton" Singularity: Semantic Tunneling and Manifold Unfolding in Recursive AI [1.4213973379473657]
我々は「セマンティックトンネル」と呼ばれる新しい故障モードを同定する
適応スペクトル負結合は「多様体展開」を積極的に誘導するトポロジカル作用素として機能することを示す。
MNCISはモデルに有効ランクを3.62の異方性基底線から5.35の超多角状態へと拡張させる。
論文 参考訳(メタデータ) (2026-01-27T01:19:50Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.78540935201558]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。
このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。
i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (2025-09-25T17:52:06Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。