論文の概要: The Origins of Representation Manifolds in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18235v1
- Date: Fri, 23 May 2025 13:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.250369
- Title: The Origins of Representation Manifolds in Large Language Models
- Title(参考訳): 大規模言語モデルにおける表現多様体の起源
- Authors: Alexander Modell, Patrick Rubin-Delanchy, Nick Whiteley,
- Abstract要約: 表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
- 参考スコア(独自算出の注目度): 52.68554895844062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a large ongoing scientific effort in mechanistic interpretability to map embeddings and internal representations of AI systems into human-understandable concepts. A key element of this effort is the linear representation hypothesis, which posits that neural representations are sparse linear combinations of `almost-orthogonal' direction vectors, reflecting the presence or absence of different features. This model underpins the use of sparse autoencoders to recover features from representations. Moving towards a fuller model of features, in which neural representations could encode not just the presence but also a potentially continuous and multidimensional value for a feature, has been a subject of intense recent discourse. We describe why and how a feature might be represented as a manifold, demonstrating in particular that cosine similarity in representation space may encode the intrinsic geometry of a feature through shortest, on-manifold paths, potentially answering the question of how distance in representation space and relatedness in concept space could be connected. The critical assumptions and predictions of the theory are validated on text embeddings and token activations of large language models.
- Abstract(参考訳): 機械的解釈可能性において、AIシステムの埋め込みと内部表現を人間の理解可能な概念にマッピングするための、膨大な科学的努力が進行中である。
この取り組みの鍵となる要素は線形表現仮説(英語版)であり、これはニューラル表現が「ほぼ直交」方向ベクトルの疎線型結合であり、異なる特徴の存在や欠如を反映していると仮定している。
このモデルはスパースオートエンコーダを使用して表現から特徴を復元する。
ニューラル表現が、ある特徴の存在だけでなく、潜在的に連続的で多次元的な値をエンコードできるような、機能のより完全なモデルへの移行は、近年の激しい議論の対象となっている。
特に、表現空間におけるコサイン類似性は、最も短く、多様体上の経路を通して特徴の内在的幾何学を符号化し、表現空間における距離と概念空間における関連性がどのように連結されるかという疑問に答える可能性がある。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
関連論文リスト
- Emergence of Quantised Representations Isolated to Anisotropic Functions [0.0]
本稿では,既存のSpotlight Resonance法に基づいて表現アライメントを決定する。
新しいツールは、オートエンコーダモデルにおいて、離散表現がどのように出現し、編成されるかについての洞察を得るために使用される。
論文 参考訳(メタデータ) (2025-07-16T09:27:54Z) - From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit [16.996218963146788]
我々は,MP-SAEがエンコーダを一連の残差誘導ステップにアンロールすることで,階層的かつ非線形にアクセス可能な特徴を捉えることができることを示す。
また、MP-SAEのシーケンシャルエンコーダ原理は、推論時に適応空間の利点を付加することを示した。
論文 参考訳(メタデータ) (2025-06-03T17:24:55Z) - FeatInv: Spatially resolved mapping from feature space to input space using conditional diffusion models [0.9503773054285559]
ディープニューラルネットワークを理解するためには、内部表現が不可欠である。
特徴空間から入力空間へのマッピングは前者の解釈に役立つが、既存のアプローチはしばしば粗い近似に依存する。
本研究では,条件付き拡散モデルを用いて確率論的手法でそのような写像を学習する。
論文 参考訳(メタデータ) (2025-05-27T11:07:34Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Learning Visual-Semantic Subspace Representations [49.17165360280794]
我々は,自己教師型学習に有効な情報理論の原理を基礎として,核ノルムに基づく損失関数を導入する。
この損失の理論的特徴として、クラス性の促進に加えて、部分空間格子内のデータのスペクトル幾何学を符号化していることを示す。
論文 参考訳(メタデータ) (2024-05-25T12:51:38Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Bridging Neural and Symbolic Representations with Transitional Dictionary Learning [4.326886488307076]
本稿では,記号的知識を暗黙的に学習できる新しいトランジショナル辞書学習(TDL)フレームワークを提案する。
本稿では,期待最大化法(EM)アルゴリズムで学習した辞書を用いて,入力を視覚部分へ分解するゲーム理論拡散モデルを提案する。
3つの抽象的な合成視覚オブジェクトデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2023-08-03T19:29:35Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z) - Word2Box: Learning Word Representation Using Box Embeddings [28.080105878687185]
単語のベクトル表現を学習することは、NLPにおける最も基本的なトピックの1つである。
我々のモデルであるWord2Boxは、単語表現の問題に対する領域ベースアプローチを採用し、単語を$n$次元長方形として表現する。
様々な単語類似性タスク、特にあまり一般的でない単語の性能向上を実証した。
論文 参考訳(メタデータ) (2021-06-28T01:17:11Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - High-dimensional distributed semantic spaces for utterances [0.2907403645801429]
本稿では,発話とテキストレベルデータの高次元表現モデルについて述べる。
言語情報を表現する数学的原理と行動学的に妥当なアプローチに基づいている。
本論文は,固定次元の共通積分フレームワークにおいて,実装モデルが言語的特徴を広範囲に表すことができるかを示す。
論文 参考訳(メタデータ) (2021-04-01T12:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。