論文の概要: The Linear Representation Hypothesis and the Geometry of Large Language Models
- arxiv url: http://arxiv.org/abs/2311.03658v2
- Date: Wed, 17 Jul 2024 22:24:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-20 00:02:04.555329
- Title: The Linear Representation Hypothesis and the Geometry of Large Language Models
- Title(参考訳): 大規模言語モデルの線形表現仮説と幾何学
- Authors: Kiho Park, Yo Joong Choe, Victor Veitch,
- Abstract要約: インフォーマルに、「線形表現仮説」とは、高次概念がある表現空間の方向として線型に表現されるという考え方である。
線形表現(linear representation)とは何か?
対実対を用いて線形表現のすべての概念を統一する方法を示す。
- 参考スコア(独自算出の注目度): 12.387530469788738
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Informally, the 'linear representation hypothesis' is the idea that high-level concepts are represented linearly as directions in some representation space. In this paper, we address two closely related questions: What does "linear representation" actually mean? And, how do we make sense of geometric notions (e.g., cosine similarity or projection) in the representation space? To answer these, we use the language of counterfactuals to give two formalizations of "linear representation", one in the output (word) representation space, and one in the input (sentence) space. We then prove these connect to linear probing and model steering, respectively. To make sense of geometric notions, we use the formalization to identify a particular (non-Euclidean) inner product that respects language structure in a sense we make precise. Using this causal inner product, we show how to unify all notions of linear representation. In particular, this allows the construction of probes and steering vectors using counterfactual pairs. Experiments with LLaMA-2 demonstrate the existence of linear representations of concepts, the connection to interpretation and control, and the fundamental role of the choice of inner product.
- Abstract(参考訳): インフォーマルに、「線形表現仮説」とは、高次概念がある表現空間の方向として線型に表現されるという考え方である。
本稿では,2つの密接に関連する疑問に対処する: 「線形表現」とは実際に何を意味するのか?
そして、表現空間における幾何学的概念(例えばコサイン類似性や射影)をどのように意味づけるか。
これらに答えるために、反事実の言語を用いて「線形表現」の2つの形式化、出力(単語)表現空間の1つ、入力(文)空間の1つを与える。
次に、これらがそれぞれ線形探索とモデルステアリングに結びついていることを証明する。
幾何学的概念を理解するために、形式化を用いて言語構造を正確に表現する意味において、言語構造を尊重する特定の(非ユークリッド的)内積を特定する。
この因果内積を用いて、線型表現のすべての概念を統一する方法を示す。
特に、これは反実対を用いたプローブとステアリングベクトルの構築を可能にする。
LLaMA-2の実験では、概念の線形表現の存在、解釈と制御の関連、および内積の選択の基本的な役割が示されている。
関連論文リスト
- Geometry of fibers of the multiplication map of deep linear neural networks [0.0]
固定行列に乗算する構成可能な行列のクイバーの集合の幾何学について検討する。
我々の解は、同変コホモロジーにおけるポアンカー級数、二次整数プログラム、明示的な公式の3つの形式で表される。
論文 参考訳(メタデータ) (2024-11-29T18:36:03Z) - A Complexity-Based Theory of Compositionality [53.025566128892066]
AIでは、構成表現は配布外一般化の強力な形式を可能にすることができる。
ここでは、構成性に関する直観を考慮し、拡張する構成性の公式な定義を提案する。
この定義は概念的には単純で量的であり、アルゴリズム情報理論に基礎を置いており、あらゆる表現に適用できる。
論文 参考訳(メタデータ) (2024-10-18T18:37:27Z) - The Geometry of Categorical and Hierarchical Concepts in Large Language Models [15.126806053878855]
線形表現仮説の形式化をベクトルとして(例:is_animal)特徴を表現するために拡張する方法を示す。
形式化を用いて、概念の階層構造とそれらの表現の幾何学との関係を証明する。
我々はこれらの理論結果をGemmaとLLaMA-3大言語モデルで検証し、WordNetのデータを用いて900以上の階層的な概念の表現を推定する。
論文 参考訳(メタデータ) (2024-06-03T16:34:01Z) - Transport of Algebraic Structure to Latent Embeddings [8.693845596949892]
機械学習はしばしば、より大きく抽象的な数学的空間にある入力の潜在的な埋め込みを生成することを目的としている。
アソシエーションを尊重しながら、その潜在埋め込みだけを使って2つの集合を「統一」する方法をどうやって学べるか。
本稿では、入力空間上の法則と確実に一致した潜在空間演算をパラメータ化するための一般的な手順を提案する。
論文 参考訳(メタデータ) (2024-05-27T02:24:57Z) - Inference via Interpolation: Contrastive Representations Provably Enable Planning and Inference [110.47649327040392]
時系列データを考えると、“今後どうなるか?”や“どうやって来たのか?”といった質問に答えるにはどうすればよいでしょう?
これらの質問は、学習された表現の観点から、いかにコンパクトで閉じた形状の解が得られるかを示す。
論文 参考訳(メタデータ) (2024-03-06T22:27:30Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Understanding Probe Behaviors through Variational Bounds of Mutual
Information [53.520525292756005]
情報理論を利用した新しい数学的枠組みを構築することで線形探索のガイドラインを提供する。
まず、プローブ設計を緩和するために、相互情報の変動境界(MI)と探索を結合し、線形探索と微調整を同一視する。
中間表現は、分離性の向上とMIの減少のトレードオフのため、最大のMI推定値を持つことが示される。
論文 参考訳(メタデータ) (2023-12-15T18:38:18Z) - A Geometric Notion of Causal Probing [91.14470073637236]
言語モデルの表現空間では、動詞数のような概念に関するすべての情報が線形部分空間に符号化される。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
LEACEは概念情報の約半分を含む1次元の部分空間を返す。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z) - On the Complexity of Representation Learning in Contextual Linear
Bandits [110.84649234726442]
表現学習は線形帯域よりも根本的に複雑であることを示す。
特に、与えられた表現の集合で学ぶことは、その集合の中で最悪の実現可能な表現で学ぶことよりも決して単純ではない。
論文 参考訳(メタデータ) (2022-12-19T13:08:58Z) - Should Semantic Vector Composition be Explicit? Can it be Linear [5.6031349532829955]
ベクトル表現は意味言語モデリングの中心的な要素となっている。
ウェットフィッシュという概念はどのように表現すべきか?
本稿では,この質問を2つの視点から調査する。
論文 参考訳(メタデータ) (2021-04-13T23:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。