論文の概要: Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation
- arxiv url: http://arxiv.org/abs/2503.22547v1
- Date: Fri, 28 Mar 2025 15:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.746413
- Title: Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation
- Title(参考訳): 次元カスムのブリッジ:トークン相関による変圧器の層幅次元の低減
- Authors: Zhuo-Yang Song, Zeyu Li, Qing-Hong Cao, Ming-xing Luo, Hua Xing Zhu,
- Abstract要約: トランスフォーマー層間のトークンダイナミクスを追跡するフレームワークを開発した。
この研究はトランスフォーマー層を高次元と低次元のセマンティクスの間のプロジェクタとして再フレーミングすることで解釈可能性を向上させる。
- 参考スコア(独自算出の注目度): 2.5976894391099625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The geometric evolution of token representations in large language models (LLMs) presents a fundamental paradox: while human language inherently organizes semantic information in low-dimensional spaces ($\sim 10^1$ dimensions), modern LLMs employ high-dimensional embeddings ($\sim 10^3$ dimensions) processed through Transformer architectures. To resolve this paradox, this work bridges this conceptual gap by developing a geometric framework that tracks token dynamics across Transformers layers. Through layer-wise analysis of intrinsic dimensions across multiple architectures, we reveal an expansion-contraction pattern where tokens diffuse to a "working space" and then progressively project onto lower-dimensional submanifolds. Our finding implies a negative correlation between the working space dimension and parameter-sensitive performance of the LLMs, and indicates that effective models tend to compress tokens into approximately 10-dimensional submanifolds, closely resembling human semantic spaces. This work not only advances LLM interpretability by reframing Transformers layers as projectors that mediate between high-dimensional computation and low-dimensional semantics, but also provides practical tools for model diagnostics that do not rely on task-specific evaluations.
- Abstract(参考訳): 大規模言語モデル (LLMs) におけるトークン表現の幾何学的進化は基本的なパラドックスを示し、人間の言語は本質的に低次元空間 (\sim 10^1$ dimensions) で意味情報を整理するが、現代のLSMはトランスフォーマーアーキテクチャを通して処理された高次元埋め込み (\sim 10^3$ dimensions) を用いる。
このパラドックスを解決するために、この研究はトランスフォーマー層間のトークンダイナミクスを追跡する幾何学的フレームワークを開発することで、この概念的ギャップを埋める。
複数のアーキテクチャにまたがる内在次元の層ワイド解析により、トークンが「作業空間」に拡散し、より低次元の部分多様体に徐々に投影される拡張抽出パターンを明らかにする。
本研究は, LLMの作業空間次元とパラメータ依存性能の負の相関関係を示唆し, 有効モデルがトークンを約10次元のサブ多様体に圧縮し, 人間の意味空間によく似ていることを示す。
この研究は、高次元計算と低次元意味論の間を仲介するプロジェクタとしてトランスフォーマー層をフレーミングすることでLCMの解釈可能性を向上させるだけでなく、タスク固有の評価に依存しないモデル診断のための実用的なツールも提供する。
関連論文リスト
- Semantic Wave Functions: Exploring Meaning in Large Language Models Through Quantum Formalism [0.0]
大規模言語モデル(LLM)は、高次元ベクトル埋め込みにおける意味関係を符号化する。
本稿では,LLM埋め込み空間と量子力学の類似性について検討する。
この量子派生表現を形式化する「意味的波動関数」を導入する。
論文 参考訳(メタデータ) (2025-03-09T08:23:31Z) - Riemann$^2$: Learning Riemannian Submanifolds from Riemannian Data [12.424539896723603]
潜在変数モデルは、高次元データから低次元多様体を学習するための強力なツールである。
本稿では,ロボットの動作合成や脳コネクトームの解析など,さまざまな領域における複雑なタスクの処理を可能にする。
論文 参考訳(メタデータ) (2025-03-07T16:08:53Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Neural Isometries: Taming Transformations for Equivariant ML [8.203292895010748]
本稿では,観測空間を汎用潜在空間にマップする方法を学習する自動エンコーダフレームワークであるNeural Isometriesを紹介する。
トレーニング済みの潜伏空間で動作する単純なオフ・ザ・シェルフ同変ネットワークは、巧妙に設計された手作りのネットワークと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:24:25Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Solving High-Dimensional PDEs with Latent Spectral Models [74.1011309005488]
我々は,高次元PDEの効率的かつ高精度な解法に向けて,Latent Spectral Models (LSM) を提案する。
数値解析において古典スペクトル法に着想を得て,潜時空間におけるPDEを解くために,ニューラルスペクトルブロックを設計する。
LSMは、一貫した最先端を実現し、7つのベンチマークで平均11.5%の相対的な利益を得る。
論文 参考訳(メタデータ) (2023-01-30T04:58:40Z) - Analyzing the Latent Space of GAN through Local Dimension Estimation [4.688163910878411]
高忠実度画像合成におけるスタイルベースGAN(StyleGAN)は、それらの潜在空間の意味的特性を理解するために研究の動機となっている。
事前学習したGANモデルにおける任意の中間層に対する局所次元推定アルゴリズムを提案する。
提案した計量はDistortionと呼ばれ、学習された潜在空間上の内在空間の不整合を測定する。
論文 参考訳(メタデータ) (2022-05-26T06:36:06Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Path Development Network with Finite-dimensional Lie Group Representation [3.9983665898166425]
有限次元リー群を経由したシーケンシャルデータの表現を利用する,新しい訓練可能な経路開発層を提案する。
提案するレイヤは、リカレントニューラルネットワーク(RNN)に類似しており、勾配問題を緩和する明示的で単純なリカレントユニットを有している。
様々なデータセットにおける実験結果から、開発層は、精度と次元性において、シグネチャ特性を一貫して、著しく上回っていることが示される。
論文 参考訳(メタデータ) (2022-04-02T02:01:00Z) - The Geometry of Deep Generative Image Models and its Applications [0.0]
generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。
これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。
潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
論文 参考訳(メタデータ) (2021-01-15T07:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。