Fugu-MT 論文翻訳(概要): The Geometry of Tokens in Internal Representations of Large Language Models

論文の概要: The Geometry of Tokens in Internal Representations of Large Language Models

arxiv url: http://arxiv.org/abs/2501.10573v1
Date: Fri, 17 Jan 2025 22:02:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.064812
Title: The Geometry of Tokens in Internal Representations of Large Language Models
Title（参考訳）: 大規模言語モデルの内部表現におけるトークンの幾何学
Authors: Karthik Viswanathan, Yuri Gardinazzi, Giada Panerai, Alberto Cazzaniga, Matteo Biagetti,
Abstract要約: 変圧器モデルにおけるトークン埋め込みの幾何学と次のトークン予測におけるそれらの役割の関係について検討する。我々は、本質的な次元、近傍の重なり合い、コサイン類似性などの指標を用いて、これらの経験的測度を層にわたって観察的に調査する。その結果,トークン埋め込みの幾何学的性質と次のトークン予測のエントロピー損失との相関関係が明らかとなった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the relationship between the geometry of token embeddings and their role in the next token prediction within transformer models. An important aspect of this connection uses the notion of empirical measure, which encodes the distribution of token point clouds across transformer layers and drives the evolution of token representations in the mean-field interacting picture. We use metrics such as intrinsic dimension, neighborhood overlap, and cosine similarity to observationally probe these empirical measures across layers. To validate our approach, we compare these metrics to a dataset where the tokens are shuffled, which disrupts the syntactic and semantic structure. Our findings reveal a correlation between the geometric properties of token embeddings and the cross-entropy loss of next token predictions, implying that prompts with higher loss values have tokens represented in higher-dimensional spaces.
Abstract（参考訳）: 変圧器モデルにおけるトークン埋め込みの幾何学と次のトークン予測におけるそれらの役割の関係について検討する。この接続の重要な側面は経験的測度の概念を使い、これはトランスフォーマー層にまたがるトークンポイント雲の分布を符号化し、平均場相互作用図におけるトークン表現の進化を駆動する。我々は、本質的な次元、近傍の重なり合い、コサイン類似性などの指標を用いて、これらの経験的測度を層にわたって観察的に調査する。このアプローチを検証するために、これらのメトリクスをトークンがシャッフルされたデータセットと比較する。その結果, トークン埋め込みの幾何学的性質と次のトークン予測のクロスエントロピー損失との相関関係が明らかとなり, 高損失値のプロンプトが高次元空間で表現されることが示唆された。

関連論文リスト

The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文参考訳（メタデータ） (2025-05-23T13:31:22Z)
SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文参考訳（メタデータ） (2024-09-30T17:59:03Z)
Current Symmetry Group Equivariant Convolution Frameworks for Representation Learning [5.802794302956837]
ユークリッドの深層学習はしばしば、表現空間が不規則で複雑な位相で湾曲した実世界の信号に対処するのに不十分である。我々は、対称性群同変深層学習モデルの重要性と、グラフや3次元形状、非ユークリッド空間における畳み込みのような操作の実現に焦点を当てる。
論文参考訳（メタデータ） (2024-09-11T15:07:18Z)
Thinner Latent Spaces: Detecting dimension and imposing invariance through autoencoder gradient constraints [9.380902608139902]
ネットワークの潜在層内の直交関係を利用して、非線形多様体データセットの内在次元性を推定できることを示す。微分幾何学に依拠する関係理論を概説し、対応する勾配偏光最適化アルゴリズムについて述べる。
論文参考訳（メタデータ） (2024-08-28T20:56:35Z)
Neural Isometries: Taming Transformations for Equivariant ML [8.203292895010748]
本稿では,観測空間を汎用潜在空間にマップする方法を学習する自動エンコーダフレームワークであるNeural Isometriesを紹介する。トレーニング済みの潜伏空間で動作する単純なオフ・ザ・シェルフ同変ネットワークは、巧妙に設計された手作りのネットワークと同等の結果が得られることを示す。
論文参考訳（メタデータ） (2024-05-29T17:24:25Z)
Learning Visual-Semantic Subspace Representations [49.17165360280794]
我々は,自己教師型学習に有効な情報理論の原理を基礎として,核ノルムに基づく損失関数を導入する。この損失の理論的特徴として、クラス性の促進に加えて、部分空間格子内のデータのスペクトル幾何学を符号化していることを示す。
論文参考訳（メタデータ） (2024-05-25T12:51:38Z)
Signed graphs in data sciences via communicability geometry [49.1574468325115]
署名付きグラフの通信可能性の概念を提案し,その数学的性質を探求する。負の辺が存在する場合でも、距離の公理を満たす指標を導出する。次に、これらのメトリクスを適用して、統一されたフレームワーク内の署名付きグラフのデータ解析におけるいくつかの問題を解決する。
論文参考訳（メタデータ） (2024-03-12T10:32:35Z)
The Information of Large Language Model Geometry [3.4003124816653143]
本研究では,表現エントロピーを解析し,モデルサイズとの関係を明らかにするシミュレーションを行う。本稿では,スケーリング法則現象を解明するための(条件付き)エントロピーに基づく理論を提案する。
論文参考訳（メタデータ） (2024-02-01T12:50:43Z)
The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文参考訳（メタデータ） (2023-02-01T07:50:26Z)
Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文参考訳（メタデータ） (2022-05-23T15:19:09Z)
Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文参考訳（メタデータ） (2021-09-15T02:26:07Z)
Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2021-03-22T08:11:43Z)
Learning Disentangled Representations with Latent Variation Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文参考訳（メタデータ） (2020-07-25T08:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。