論文の概要: Shared Global and Local Geometry of Language Model Embeddings
- arxiv url: http://arxiv.org/abs/2503.21073v3
- Date: Tue, 15 Jul 2025 12:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 15:29:04.35523
- Title: Shared Global and Local Geometry of Language Model Embeddings
- Title(参考訳): 言語モデル埋め込みのグローバル化と局所幾何学
- Authors: Andrew Lee, Melanie Weber, Fernanda Viégas, Martin Wattenberg,
- Abstract要約: 大規模言語モデルのトークン埋め込みに多くの幾何学的類似性を見いだす。
局所幾何学は,(1)局所線形埋め込みを用いて,(2)各埋め込みの内在次元の簡単な測度を定義することによって特徴付ける。
- 参考スコア(独自算出の注目度): 46.33317507982751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers have recently suggested that models share common representations. In our work, we find numerous geometric similarities across the token embeddings of large language models. First, we find ``global'' similarities: token embeddings often share similar relative orientations. Next, we characterize local geometry in two ways: (1) by using Locally Linear Embeddings, and (2) by defining a simple measure for the intrinsic dimension of each embedding. Both characterizations allow us to find local similarities across token embeddings. Additionally, our intrinsic dimension demonstrates that embeddings lie on a lower dimensional manifold, and that tokens with lower intrinsic dimensions often have semantically coherent clusters, while those with higher intrinsic dimensions do not. Based on our findings, we introduce EMB2EMB, a simple application to linearly transform steering vectors from one language model to another, despite the two models having different dimensions.
- Abstract(参考訳): 研究者は最近、モデルが共通の表現を共有することを示唆している。
本稿では,大規模言語モデルのトークン埋め込みにおける幾何学的類似点を多数発見する。
まず、'`global'の類似点を見つけます。トークンの埋め込みは、しばしば同様の相対的な向きを共有します。
次に,局所幾何学を2つの方法で特徴づける:(1)局所線形埋め込みを用いること,(2)各埋め込みの内在次元の簡単な測度を定義すること。
どちらのキャラクタリゼーションもトークン埋め込みにまたがる局所的な類似性を見つけることができる。
さらに、我々の内在次元は、埋め込みが下次元多様体の上にあり、低い内在次元のトークンはしばしば意味的にコヒーレントなクラスタを持つが、高い内在次元のトークンはそうではないことを示す。
EMB2EMBは, 次元の異なる2つのモデルに対して, 1つの言語モデルから別の言語モデルへ線形変換する単純なアプリケーションである。
関連論文リスト
- Semantic Convergence: Investigating Shared Representations Across Scaled LLMs [4.172347145536457]
大きな言語モデルは、サイズの違いにもかかわらず、世界全体を広く類似した解釈可能な特徴に彫り込み、クロスモデル解釈の基盤として普遍性を補強する。
予備実験では、単一トークンからマルチトークン部分空間への解析を拡張し、意味論的に類似した部分空間が言語モデルと同様に相互作用することを示す。
論文 参考訳(メタデータ) (2025-07-21T07:09:32Z) - The structure of the token space for large language models [1.5621144215664768]
大規模言語モデルは、発話のセグメント(トークン)を高次元の周囲の潜在空間に配置することで、自然言語に存在する相関構造を符号化する。
トークン部分空間の次元とリッチスカラー曲率を推定し、適度な大きさの3つのオープンソースの大言語モデルに適用する。
その結果, 模型の形状と曲率の相関関係が明らかとなり, モデル挙動に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-11T17:07:15Z) - Concept Space Alignment in Multilingual LLMs [47.633314194898134]
一般化は類似の型付けを持つ言語や抽象概念に最適である。
いくつかのモデルでは、プロンプトベースの埋め込みは単語の埋め込みよりもよく整合するが、投影は線形ではない。
論文 参考訳(メタデータ) (2024-10-01T21:21:00Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Duality-Induced Regularizer for Semantic Matching Knowledge Graph
Embeddings [70.390286614242]
本稿では, 類似のセマンティクスを持つエンティティの埋め込みを効果的に促進する新しい正規化器(duality-induced RegulArizer (DURA))を提案する。
実験により、DURAは、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2022-03-24T09:24:39Z) - All Bark and No Bite: Rogue Dimensions in Transformer Language Models
Obscure Representational Quality [5.203329540700176]
我々は、文脈化された言語モデルに対するそのような尺度の有益性に疑問を投げかける。
少数のローグ次元(しばしば1-3)が類似度尺度を支配していることがわかった。
論文 参考訳(メタデータ) (2021-09-09T16:45:15Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Quadric hypersurface intersection for manifold learning in feature space [52.83976795260532]
適度な高次元と大きなデータセットに適した多様体学習技術。
この手法は、二次超曲面の交点という形で訓練データから学習される。
テスト時、この多様体は任意の新しい点に対する外れ値スコアを導入するのに使うことができる。
論文 参考訳(メタデータ) (2021-02-11T18:52:08Z) - LDLE: Low Distortion Local Eigenmaps [77.02534963571597]
本稿では、低次元のデータセットの低歪み局所ビューのセットを構築し、それらを登録してグローバル埋め込みを取得するマニホールド学習技術である低歪み局所固有マップ(LDLE)を紹介します。
局所ビューはグラフラプラシアンのグローバル固有ベクトルを用いて構築され、procrustes分析を用いて登録される。
論文 参考訳(メタデータ) (2021-01-26T19:55:05Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Filtered Inner Product Projection for Crosslingual Embedding Alignment [28.72288652451881]
フィルタ内積投影(FIPP)は、埋め込みを共通表現空間にマッピングする手法である。
FIPPは、ソースとターゲットの埋め込みが異なる次元である場合でも適用可能である。
提案手法は,MUSEデータセット上の既存の手法よりも,様々な言語ペアに対して優れていることを示す。
論文 参考訳(メタデータ) (2020-06-05T19:53:30Z) - LNMap: Departures from Isomorphic Assumption in Bilingual Lexicon
Induction Through Non-Linear Mapping in Latent Space [17.49073364781107]
バイリンガル語彙誘導のための言語間単語埋め込み学習のための新しい半教師付き手法を提案する。
我々のモデルは同型仮定とは独立であり、2つの独立に訓練されたオートエンコーダの潜在空間における非線形写像を用いる。
論文 参考訳(メタデータ) (2020-04-28T23:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。