論文の概要: Convergent Evolution: How Different Language Models Learn Similar Number Representations
- arxiv url: http://arxiv.org/abs/2604.20817v1
- Date: Wed, 22 Apr 2026 17:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.267199
- Title: Convergent Evolution: How Different Language Models Learn Similar Number Representations
- Title(参考訳): 収束進化 : 異なる言語モデルが類似した数表現をいかに学習するか
- Authors: Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia,
- Abstract要約: 自然言語で訓練された言語モデルは、T=2, 5, 10$で支配的な周期を持つ周期的特徴を用いて数値を表現することを学ぶ。
Transformer、Linear RNN、LSTM、そして古典的な単語埋め込みは、すべて、Fourierドメインで周期$T$スパイクを持つ機能を学ぶ。
数 mod-$T$ を線形に分類するのに使用できる幾何的に分離可能な特徴だけを学ぶ。
- 参考スコア(独自算出の注目度): 53.8769088563044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models trained on natural text learn to represent numbers using periodic features with dominant periods at $T=2, 5, 10$. In this paper, we identify a two-tiered hierarchy of these features: while Transformers, Linear RNNs, LSTMs, and classical word embeddings trained in different ways all learn features that have period-$T$ spikes in the Fourier domain, only some learn geometrically separable features that can be used to linearly classify a number mod-$T$. To explain this incongruity, we prove that Fourier domain sparsity is necessary but not sufficient for mod-$T$ geometric separability. Empirically, we investigate when model training yields geometrically separable features, finding that the data, architecture, optimizer, and tokenizer all play key roles. In particular, we identify two different routes through which models can acquire geometrically separable features: they can learn them from complementary co-occurrence signals in general language data, including text-number co-occurrence and cross-number interaction, or from multi-token (but not single-token) addition problems. Overall, our results highlight the phenomenon of convergent evolution in feature learning: A diverse range of models learn similar features from different training signals.
- Abstract(参考訳): 自然言語で訓練された言語モデルは、T=2, 5, 10$で支配的な周期を持つ周期的特徴を用いて数値を表現することを学ぶ。
本稿では,トランスフォーマー,線形RNN,LSTM,および古典語埋め込みの2階層階層構造を同定する。 異なる方法で訓練されたすべての単語埋め込みは,周期-T$スパイクを持つ特徴をフーリエ領域で学習するが,数 mod-T$ を線形に分類するのに使用できる幾何的に分離可能な特徴のみを学習する。
この矛盾を説明するために、フーリエ領域の間隔は必要だが mod-$T$ 幾何学的分離性には不十分であることを示す。
経験的に、モデルトレーニングが幾何的に分離可能な特徴を得られるかを調べ、データ、アーキテクチャ、オプティマイザ、トークンーが鍵となる役割を担っていることを確かめる。
特に,モデルが幾何学的に分離可能な特徴を得るための2つの経路を同定し,テキスト数共起やクロスナンバー相互作用を含む一般的な言語データにおける相補的共起信号から,あるいはマルチトークン付加問題から学習する。
さまざまなモデルのモデルが、異なるトレーニング信号から同様の特徴を学びます。
関連論文リスト
- Vocabulary embeddings organize linguistic structure early in language model training [3.2661767443292646]
大規模言語モデル(LLM)は、入力埋め込みベクトルの幾何を複数の層で操作することで機能する。
ここでは、言語モデルの入力語彙表現がどのように構造化され、この構造はトレーニング中にどのように進化しますか?
入力埋め込みの幾何学的構造と2つのオープンソースモデルの出力埋め込みを、セマンティック、構文、周波数ベースのメトリクスで関連付ける一連の実験を行った。
論文 参考訳(メタデータ) (2025-10-08T23:26:22Z) - Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。
この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文 参考訳(メタデータ) (2025-05-29T17:22:00Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Do Neural Networks Trained with Topological Features Learn Different
Internal Representations? [1.418465438044804]
本研究では、トポロジカルな特徴で訓練されたモデルが、元の生データで学習したモデルと根本的に異なるデータの内部表現を学習するかどうかを検討する。
構造的には、トポロジカルな特徴に基づいて訓練・評価されたモデルの隠れ表現は、対応する生データに基づいて訓練・評価されたモデルと大きく異なることがわかった。
これは、生データに基づいてトレーニングされたニューラルネットワークが、予測を行う過程で限られたトポロジ的特徴を抽出することを意味すると推測する。
論文 参考訳(メタデータ) (2022-11-14T19:19:04Z) - Benchmarking Compositionality with Formal Languages [64.09083307778951]
我々は,NLPにおける大規模ニューラルモデルが,データから学習しながら,原始概念をより大規模な新しい組み合わせに組み込むことができるかどうかを検討する。
多くのトランスデューサをランダムにサンプリングすることにより、ニューラルネットワークによる合成関係の学習性に寄与する特性を探索する。
モデルは完全に関係を学習するか全く学習しないかが分かる。鍵となるのはトランジッションカバレッジであり、トランジッション毎に400の例でソフトな学習可能性制限を設定する。
論文 参考訳(メタデータ) (2022-08-17T10:03:18Z) - A Deep Structural Model for Analyzing Correlated Multivariate Time
Series [11.009809732645888]
相関した多変量時系列入力を処理できる深層学習構造時系列モデルを提案する。
モデルは、トレンド、季節性、イベントコンポーネントを明示的に学習し、抽出する。
我々は,様々な時系列データセットに関する総合的な実験を通して,そのモデルと最先端のいくつかの手法を比較した。
論文 参考訳(メタデータ) (2020-01-02T18:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。