論文の概要: On the Origins of Linear Representations in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.03867v1
- Date: Wed, 6 Mar 2024 17:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:13:02.504723
- Title: On the Origins of Linear Representations in Large Language Models
- Title(参考訳): 大規模言語モデルにおける線形表現の起源について
- Authors: Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam, Victor
Veitch
- Abstract要約: 我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
- 参考スコア(独自算出の注目度): 51.88404605700344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have argued that high-level semantic concepts are encoded
"linearly" in the representation space of large language models. In this work,
we study the origins of such linear representations. To that end, we introduce
a simple latent variable model to abstract and formalize the concept dynamics
of the next token prediction. We use this formalism to show that the next token
prediction objective (softmax with cross-entropy) and the implicit bias of
gradient descent together promote the linear representation of concepts.
Experiments show that linear representations emerge when learning from data
matching the latent variable model, confirming that this simple structure
already suffices to yield linear representations. We additionally confirm some
predictions of the theory using the LLaMA-2 large language model, giving
evidence that the simplified model yields generalizable insights.
- Abstract(参考訳): 近年の研究では、大規模言語モデルの表現空間において、高レベルのセマンティック概念は「直線的に」エンコードされていると論じられている。
本研究では,そのような線形表現の起源について考察する。
そこで我々は,次のトークン予測の概念ダイナミクスを抽象化し,形式化する単純な潜在変数モデルを導入する。
この形式主義を用いて次のトークン予測目標(交叉エントロピーを伴うソフトマックス)と勾配降下の暗黙のバイアスが共に概念の線形表現を促進することを示す。
実験により、潜在変数モデルに一致するデータから学習すると線形表現が出現し、この単純な構造が既に線形表現を得るのに十分であることを確認した。
さらに,LLaMA-2大言語モデルによる理論の予測を確認し,単純化されたモデルが一般化可能な洞察を与えることを示す。
関連論文リスト
- The Geometry of Categorical and Hierarchical Concepts in Large Language Models [15.126806053878855]
線形表現仮説の形式化をベクトルとして(例:is_animal)特徴を表現するために拡張する方法を示す。
形式化を用いて、概念の階層構造とそれらの表現の幾何学との関係を証明する。
我々はこれらの理論結果をGemmaとLLaMA-3大言語モデルで検証し、WordNetのデータを用いて900以上の階層的な概念の表現を推定する。
論文 参考訳(メタデータ) (2024-06-03T16:34:01Z) - An Axiomatic Approach to Model-Agnostic Concept Explanations [67.84000759813435]
本稿では、線形性、再帰性、類似性という3つの自然な公理を満たす概念的説明へのアプローチを提案する。
次に、従来の概念的説明手法とのつながりを確立し、それらの意味の異なる意味についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-12T20:53:35Z) - Emergent Linear Representations in World Models of Self-Supervised
Sequence Models [5.712566125397807]
オセロ演奏ニューラルネットワークは、ボード状態の非線形モデルを学習した。
モデルの内部状態を解釈するには,"私の色"と"反対者の色"の探索がシンプルだが強力な方法であることを示している。
論文 参考訳(メタデータ) (2023-09-02T13:37:34Z) - Representer Point Selection for Explaining Regularized High-dimensional
Models [105.75758452952357]
本稿では,高次元表現器と呼ぶサンプルベース説明のクラスを紹介する。
私たちのワークホースは、一般化された高次元モデルに対する新しい代表者定理である。
提案手法の実証的性能について,実世界の2進分類データセットと2つの推薦システムデータセットを用いて検討した。
論文 参考訳(メタデータ) (2023-05-31T16:23:58Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - BELIEF in Dependence: Leveraging Atomic Linearity in Data Bits for
Rethinking Generalized Linear Models [6.435660232678891]
我々は,バイナリ拡張線形効果(BELIEF)と呼ばれるフレームワークを開発し,任意の関係をバイナリ結果と理解する。
BELIEFフレームワークのモデルは、線形モデルの言語におけるバイナリ変数の関連性を記述するため、容易に解釈できる。
論文 参考訳(メタデータ) (2022-10-19T19:28:09Z) - Linear Disentangled Representations and Unsupervised Action Estimation [2.793095554369282]
線形不整合表現は標準VAEモデルには一般的に存在しないことを示す。
本稿では,ラベル付けされたアクションシーケンスの必要性を回避し,既約表現を誘導する手法を提案する。
論文 参考訳(メタデータ) (2020-08-18T13:23:57Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z) - An interpretable neural network model through piecewise linear
approximation [7.196650216279683]
本稿では,線形成分と非線形成分を組み合わせたハイブリッド解釈モデルを提案する。
第1のコンポーネントは、モデルの表現性を高めるために、一括線形近似による明示的な特徴貢献を記述する。
他のコンポーネントは多層パーセプトロンを使用して特徴相互作用と暗黙の非線形性をキャプチャし、予測性能を向上させる。
論文 参考訳(メタデータ) (2020-01-20T14:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。