論文の概要: The Curved Spacetime of Transformer Architectures
- arxiv url: http://arxiv.org/abs/2511.03060v1
- Date: Tue, 04 Nov 2025 22:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.271346
- Title: The Curved Spacetime of Transformer Architectures
- Title(参考訳): 変圧器アーキテクチャの曲線時空
- Authors: Riccardo Di Sipio, Jairo Diaz-Rodriguez, Luis Serrano,
- Abstract要約: 本稿では,トランスフォーマーに基づく言語モデルを理解するための幾何学的枠組みを提案する。
トークン埋め込みは特徴空間の直線経路を横切るべきではないことを示し、代わりに、それらの層回りのステップは、空間曲率の埋め込みによって媒介される相互作用として屈曲し、順応するべきである。
- 参考スコア(独自算出の注目度): 0.3670422696827525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a geometric framework for understanding Transformer-based language models, drawing an explicit analogy to General Relativity. Queries and keys induce an effective metric on representation space, and attention acts as a discrete connection that implements parallel transport of value vectors across tokens. Stacked layers provide discrete time-slices through which token representations evolve on this curved manifold, while backpropagation plays the role of a least-action principle that shapes loss-minimizing trajectories in parameter space. If this analogy is correct, token embeddings should not traverse straight paths in feature space; instead, their layer-wise steps should bend and reorient as interactions mediated by embedding space curvature. To test this prediction, we design experiments that expose both the presence and the consequences of curvature: (i) we visualize a curvature landscape for a full paragraph, revealing how local turning angles vary across tokens and layers; (ii) we show through simulations that excess counts of sharp/flat angles and longer length-to-chord ratios are not explainable by dimensionality or chance; and (iii) inspired by Einstein's eclipse experiment, we probe deflection under controlled context edits, demonstrating measurable, meaning-consistent bends in embedding trajectories that confirm attention-induced curvature.
- Abstract(参考訳): 本稿では,トランスフォーマーに基づく言語モデルを理解するための幾何学的枠組みを提案する。
クエリとキーは表現空間上の効果的なメトリックを誘導し、アテンションはトークンをまたいだ値ベクトルの並列輸送を実装する離散接続として機能する。
積み重ねられた層は、この曲線多様体上でトークン表現が進化する離散的な時間スライスを提供する一方、バックプロパゲーションはパラメータ空間における損失最小軌跡を形作る最小作用原理の役割を果たす。
この類似性が正しければ、トークン埋め込みは特徴空間の直線経路を横切るべきではない。
この予測をテストするために、曲率の存在と結果の両方を露呈する実験を設計する。
(i)全段落の曲率風景を可視化し、トークンや層によって局所的な旋回角がどう変化するかを明らかにする。
(II)シャープ/フラット角の過剰な数と長さ-和比が次元やチャンスによって説明できないことのシミュレーションを通して示す。
第三報) アインシュタインの日食実験に触発され、制御された文脈編集の下で偏向を観測し、注意による曲率の確認を行う埋め込み軌道において、測定可能な、意味のある曲がりを示す。
関連論文リスト
- Curved Inference: Concern-Sensitive Geometry in Large Language Model Residual Streams [0.0]
本稿では,大言語モデルの残差ストリーム軌跡が意味的関心事の変化に応じてどのように曲げられるかを追跡する幾何学的解釈可能性フレームワークを提案する。
Gemma3-1bとLLaMA3.2-3bを5つのネイティブ空間メトリクスを用いて解析し、曲率(kappa_i)とサリエンス(S(t))に着目した。
いずれのモデルにおいても,アクティベーショントラジェクトリが確実に変更されることが示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:05:00Z) - Neural Isometries: Taming Transformations for Equivariant ML [8.203292895010748]
本稿では,観測空間を汎用潜在空間にマップする方法を学習する自動エンコーダフレームワークであるNeural Isometriesを紹介する。
トレーニング済みの潜伏空間で動作する単純なオフ・ザ・シェルフ同変ネットワークは、巧妙に設計された手作りのネットワークと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:24:25Z) - Understanding and Mitigating Hyperbolic Dimensional Collapse in Graph Contrastive Learning [70.0681902472251]
双曲空間における高品質グラフ埋め込みを学習するための新しいコントラスト学習フレームワークを提案する。
具体的には、階層的なデータ不変情報を効果的にキャプチャするアライメントメトリックを設計する。
双曲空間において、木の性質に関連する葉と高さの均一性に対処する必要があることを示す。
論文 参考訳(メタデータ) (2023-10-27T15:31:42Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Shape And Structure Preserving Differential Privacy [70.08490462870144]
正方形距離関数の勾配がラプラス機構よりも感度をよりよく制御できることを示す。
また,2乗距離関数の勾配を用いることで,ラプラス機構よりも感度を制御できることを示す。
論文 参考訳(メタデータ) (2022-09-21T18:14:38Z) - Visualizing high-dimensional loss landscapes with Hessian directions [0.0]
低次元の損失表現における曲率特性が、元の損失空間における曲率特性にどのように依存するかを考察する。
元の空間のサドル点は、ランダムな射影が用いられる場合、期待される下次元表現のように正しく識別されることは滅多にない。
論文 参考訳(メタデータ) (2022-08-28T13:18:47Z) - Rethinking the Zigzag Flattening for Image Reading [48.976491898131265]
我々はHilbert fractal flattening (HF) をコンピュータビジョンにおけるシーケンスオーダの別の方法として検討する。
HFは空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。
ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。
論文 参考訳(メタデータ) (2022-02-21T13:53:04Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - From Planes to Corners: Multi-Purpose Primitive Detection in Unorganized
3D Point Clouds [59.98665358527686]
直交平面の分割自由結合推定法を提案する。
このような統合されたシーン探索は、セマンティックプレーンの検出や局所的およびグローバルなスキャンアライメントといった、多目的のアプリケーションを可能にする。
本実験は,壁面検出から6次元トラッキングに至るまで,様々なシナリオにおいて,我々のアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2020-01-21T06:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。