Fugu-MT 論文翻訳(概要): Shared Global and Local Geometry of Language Model Embeddings

論文の概要: Shared Global and Local Geometry of Language Model Embeddings

arxiv url: http://arxiv.org/abs/2503.21073v1
Date: Thu, 27 Mar 2025 01:17:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.347609
Title: Shared Global and Local Geometry of Language Model Embeddings
Title（参考訳）: 言語モデル埋め込みのグローバル化と局所幾何学
Authors: Andrew Lee, Melanie Weber, Fernanda Viégas, Martin Wattenberg,
Abstract要約: 言語モデルのトークン埋め込みは、一般的な幾何学的構造を示す。局所幾何学は,(1)局所線形埋め込みを用いて,(2)各トークン埋め込みの内在次元の簡単な測度を定義することによって特徴付ける。
参考スコア（独自算出の注目度）: 46.33317507982751
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Researchers have recently suggested that models share common representations. In this work, we find that the token embeddings of language models exhibit common geometric structure. First, we find ``global'' similarities: token embeddings often share similar relative orientations. Next, we characterize local geometry in two ways: (1) by using Locally Linear Embeddings, and (2) by defining a simple measure for the intrinsic dimension of each token embedding. Our intrinsic dimension measure demonstrates that token embeddings lie on a lower dimensional manifold. We qualitatively show that tokens with lower intrinsic dimensions often have semantically coherent clusters, while those with higher intrinsic dimensions do not. Both characterizations allow us to find similarities in the local geometry of token embeddings. Perhaps most surprisingly, we find that alignment in token embeddings persists through the hidden states of language models, allowing us to develop an application for interpretability. Namely, we empirically demonstrate that steering vectors from one language model can be transferred to another, despite the two models having different dimensions.
Abstract（参考訳）: 研究者は最近、モデルが共通の表現を共有することを示唆している。本研究では,言語モデルのトークン埋め込みが共通な幾何学的構造を示すことを示す。まず、'`global'の類似点を見つけます。トークンの埋め込みは、しばしば同様の相対的な向きを共有します。次に,局所幾何学を2つの方法で特徴づける:(1)局所線形埋め込みを用いて,(2)各トークン埋め込みの内在次元の簡単な測度を定義する。我々の内在次元測度は、トークンの埋め込みが下次元多様体上にあることを示す。定性的に、内在次元が低いトークンは意味的にコヒーレントなクラスタを持つことが多いが、内在次元が高いトークンはそうではないことを示す。どちらの特徴も、トークン埋め込みの局所幾何学において類似性を見つけることができる。おそらく最も驚くべきことに、トークンの埋め込みにおけるアライメントは、言語モデルの隠れた状態を通じて持続し、解釈可能性のためのアプリケーションを開発することができる。すなわち、異なる次元の2つのモデルにもかかわらず、ある言語モデルからのステアリングベクトルを別の言語モデルに転送できることを実証的に示す。

関連論文リスト

Semantic Convergence: Investigating Shared Representations Across Scaled LLMs [4.172347145536457]
大きな言語モデルは、サイズの違いにもかかわらず、世界全体を広く類似した解釈可能な特徴に彫り込み、クロスモデル解釈の基盤として普遍性を補強する。予備実験では、単一トークンからマルチトークン部分空間への解析を拡張し、意味論的に類似した部分空間が言語モデルと同様に相互作用することを示す。
論文参考訳（メタデータ） (2025-07-21T07:09:32Z)
The structure of the token space for large language models [1.5621144215664768]
大規模言語モデルは、発話のセグメント(トークン)を高次元の周囲の潜在空間に配置することで、自然言語に存在する相関構造を符号化する。トークン部分空間の次元とリッチスカラー曲率を推定し、適度な大きさの3つのオープンソースの大言語モデルに適用する。その結果, 模型の形状と曲率の相関関係が明らかとなり, モデル挙動に影響を及ぼす可能性が示唆された。
論文参考訳（メタデータ） (2024-10-11T17:07:15Z)
Concept Space Alignment in Multilingual LLMs [47.633314194898134]
一般化は類似の型付けを持つ言語や抽象概念に最適である。いくつかのモデルでは、プロンプトベースの埋め込みは単語の埋め込みよりもよく整合するが、投影は線形ではない。
論文参考訳（メタデータ） (2024-10-01T21:21:00Z)
Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文参考訳（メタデータ） (2023-05-24T19:10:46Z)
Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文参考訳（メタデータ） (2022-05-24T23:43:02Z)
Duality-Induced Regularizer for Semantic Matching Knowledge Graph Embeddings [70.390286614242]
本稿では, 類似のセマンティクスを持つエンティティの埋め込みを効果的に促進する新しい正規化器(duality-induced RegulArizer (DURA))を提案する。実験により、DURAは、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。
論文参考訳（メタデータ） (2022-03-24T09:24:39Z)
All Bark and No Bite: Rogue Dimensions in Transformer Language Models Obscure Representational Quality [5.203329540700176]
我々は、文脈化された言語モデルに対するそのような尺度の有益性に疑問を投げかける。少数のローグ次元(しばしば1-3)が類似度尺度を支配していることがわかった。
論文参考訳（メタデータ） (2021-09-09T16:45:15Z)
The Low-Dimensional Linear Geometry of Contextualized Word Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文参考訳（メタデータ） (2021-05-15T00:58:08Z)
Quadric hypersurface intersection for manifold learning in feature space [52.83976795260532]
適度な高次元と大きなデータセットに適した多様体学習技術。この手法は、二次超曲面の交点という形で訓練データから学習される。テスト時、この多様体は任意の新しい点に対する外れ値スコアを導入するのに使うことができる。
論文参考訳（メタデータ） (2021-02-11T18:52:08Z)
LDLE: Low Distortion Local Eigenmaps [77.02534963571597]
本稿では、低次元のデータセットの低歪み局所ビューのセットを構築し、それらを登録してグローバル埋め込みを取得するマニホールド学習技術である低歪み局所固有マップ(LDLE)を紹介します。局所ビューはグラフラプラシアンのグローバル固有ベクトルを用いて構築され、procrustes分析を用いて登録される。
論文参考訳（メタデータ） (2021-01-26T19:55:05Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文参考訳（メタデータ） (2020-09-10T03:53:18Z)
Filtered Inner Product Projection for Crosslingual Embedding Alignment [28.72288652451881]
フィルタ内積投影(FIPP)は、埋め込みを共通表現空間にマッピングする手法である。 FIPPは、ソースとターゲットの埋め込みが異なる次元である場合でも適用可能である。提案手法は,MUSEデータセット上の既存の手法よりも,様々な言語ペアに対して優れていることを示す。
論文参考訳（メタデータ） (2020-06-05T19:53:30Z)
LNMap: Departures from Isomorphic Assumption in Bilingual Lexicon Induction Through Non-Linear Mapping in Latent Space [17.49073364781107]
バイリンガル語彙誘導のための言語間単語埋め込み学習のための新しい半教師付き手法を提案する。我々のモデルは同型仮定とは独立であり、2つの独立に訓練されたオートエンコーダの潜在空間における非線形写像を用いる。
論文参考訳（メタデータ） (2020-04-28T23:28:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。