論文の概要: Probability Signature: Bridging Data Semantics and Embedding Structure in Language Models
- arxiv url: http://arxiv.org/abs/2509.20124v1
- Date: Wed, 24 Sep 2025 13:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.831616
- Title: Probability Signature: Bridging Data Semantics and Embedding Structure in Language Models
- Title(参考訳): 確率シグナチャ:言語モデルにおけるデータセマンティクスのブリッジと埋め込み構造
- Authors: Junjie Yao, Zhi-Qin John Xu,
- Abstract要約: トークン間の意味的関係を反映した確率シグネチャのセットを提案する。
Pile corpus のサブセット上で Qwen2.5 アーキテクチャをトレーニングすることで,我々の作業を大規模言語モデル (LLM) に一般化する。
- 参考スコア(独自算出の注目度): 8.87728727154868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The embedding space of language models is widely believed to capture the semantic relationships; for instance, embeddings of digits often exhibit an ordered structure that corresponds to their natural sequence. However, the mechanisms driving the formation of such structures remain poorly understood. In this work, we interpret the embedding structures via the data distribution. We propose a set of probability signatures that reflect the semantic relationships among tokens. Through experiments on the composite addition tasks using the linear model and feedforward network, combined with theoretical analysis of gradient flow dynamics, we reveal that these probability signatures significantly influence the embedding structures. We further generalize our analysis to large language models (LLMs) by training the Qwen2.5 architecture on the subsets of the Pile corpus. Our results show that the probability signatures are faithfully aligned with the embedding structures, particularly in capturing strong pairwise similarities among embeddings. Our work uncovers the mechanism of how data distribution guides the formation of embedding structures, establishing a novel understanding of the relationship between embedding organization and semantic patterns.
- Abstract(参考訳): 言語モデルの埋め込み空間は、意味的な関係を捉えていると広く信じられている。
しかし、このような構造の形成を駆動するメカニズムはいまだに理解されていない。
本研究では,データ分布を用いて埋め込み構造を解釈する。
トークン間の意味的関係を反映した確率シグネチャのセットを提案する。
線形モデルとフィードフォワードネットワークを用いた複合付加タスクの実験を通じて、勾配流の力学の理論解析と組み合わせることで、これらの確率シグネチャが埋め込み構造に大きく影響することを明らかにする。
Pile corpus のサブセット上で Qwen2.5 アーキテクチャをトレーニングすることにより,解析を大規模言語モデル (LLM) に一般化する。
以上の結果から,確率シグネチャは埋め込み構造に忠実に整合していることが示唆された。
我々の研究は、データ分散が組込み構造の形成を導くメカニズムを明らかにし、組込み組織とセマンティックパターンの関係の新たな理解を確立する。
関連論文リスト
- Information Structure in Mappings: An Approach to Learning, Representation, and Generalisation [3.8073142980733]
この論文では、空間間の写像における体系的構造を特定するための定量的手法を紹介している。
マッピングに存在する構造的プリミティブと、それぞれの情報理論を識別します。
また、ベクトル空間のエントロピーを推定する新しい高性能なアプローチを導入し、この分析を100万から1200億のパラメータのモデルに適用する。
論文 参考訳(メタデータ) (2025-05-29T19:27:50Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - How Compositional Generalization and Creativity Improve as Diffusion Models are Trained [82.08869888944324]
構成規則を学習するために生成モデルに必要なサンプルはいくつあるか?
ルールを学習するために、データのどのシグナルが利用されるのか?
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Learning with Hidden Factorial Structure [2.474908349649168]
近年の進歩は、テキストと画像データがそのような隠された構造を含んでいることを示唆しており、次元の呪いを和らげるのに役立つ。
ニューラルネットワークが実際にそのような「隠れた因子構造」を活用できるかどうかをテストするための制御された実験フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-02T22:32:53Z) - Compositional Structures in Neural Embedding and Interaction Decompositions [101.40245125955306]
ニューラルネットワークにおけるベクトル埋め込みにおける線形代数構造間の基本的な対応について述べる。
相互作用分解」の観点から構成構造の特徴づけを導入する。
モデルの表現の中にそのような構造が存在するためには、必要かつ十分な条件を確立する。
論文 参考訳(メタデータ) (2024-07-12T02:39:50Z) - On Linearizing Structured Data in Encoder-Decoder Language Models: Insights from Text-to-SQL [8.57550491437633]
本研究では,エンコーダ-デコーダ言語モデル,特にT5における構造化データの線形処理について検討する。
この結果から,スキーマリンクや構文予測など,人間設計プロセスの模倣が可能であることが判明した。
また、構造ノードエンコーディングのエゴ中心の性質を含む、モデルの内部メカニズムに関する洞察を明らかにした。
論文 参考訳(メタデータ) (2024-04-03T01:16:20Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。