論文の概要: The Geometry of Categorical and Hierarchical Concepts in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.01506v1
- Date: Mon, 3 Jun 2024 16:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:00:59.812412
- Title: The Geometry of Categorical and Hierarchical Concepts in Large Language Models
- Title(参考訳): 大規模言語モデルにおける分類的・階層的概念の幾何学
- Authors: Kiho Park, Yo Joong Choe, Yibo Jiang, Victor Veitch,
- Abstract要約: この分野の2つの基礎的問題について研究する。
哺乳類」や「鳥」、「レプティル」、「魚」といった分類概念はどのように表現されるのか。
例えば、"dog"が"mammal"エンコードされているという事実は、どのようなものなのでしょう?
- 参考スコア(独自算出の注目度): 15.126806053878855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding how semantic meaning is encoded in the representation spaces of large language models is a fundamental problem in interpretability. In this paper, we study the two foundational questions in this area. First, how are categorical concepts, such as {'mammal', 'bird', 'reptile', 'fish'}, represented? Second, how are hierarchical relations between concepts encoded? For example, how is the fact that 'dog' is a kind of 'mammal' encoded? We show how to extend the linear representation hypothesis to answer these questions. We find a remarkably simple structure: simple categorical concepts are represented as simplices, hierarchically related concepts are orthogonal in a sense we make precise, and (in consequence) complex concepts are represented as polytopes constructed from direct sums of simplices, reflecting the hierarchical structure. We validate these theoretical results on the Gemma large language model, estimating representations for 957 hierarchically related concepts using data from WordNet.
- Abstract(参考訳): 大言語モデルの表現空間において意味の意味がどのようにコード化されているかを理解することは、解釈可能性の根本的な問題である。
本稿では,本分野における2つの基礎的課題について考察する。
まず、 {'mammal'、'bird'、'reptile'、'fish'} のような分類学的概念はどのように表現されるのか?
第二に、概念間の階層的関係はどのように符号化されるのか?
例えば、"dog"が"mammal"エンコードされた一種の"mammal"であるという事実はどうでしょう?
これらの疑問に答えるために線形表現仮説を拡張する方法を示す。
単純な分類的概念はsimpliceとして表現され、階層的関連概念は直交的であり、(結果として)複素概念はsimpliceの直和から構築されたポリトープとして表現され、階層的構造を反映する。
我々は、これらの理論結果をGemmaの大規模言語モデルで検証し、WordNetのデータを用いて、957の階層的な概念の表現を推定する。
関連論文リスト
- A Complexity-Based Theory of Compositionality [53.025566128892066]
AIでは、構成表現は配布外一般化の強力な形式を可能にすることができる。
ここでは、構成性に関する直観を考慮し、拡張する構成性の公式な定義を提案する。
この定義は概念的には単純で量的であり、アルゴリズム情報理論に基礎を置いており、あらゆる表現に適用できる。
論文 参考訳(メタデータ) (2024-10-18T18:37:27Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - An Axiomatic Approach to Model-Agnostic Concept Explanations [67.84000759813435]
本稿では、線形性、再帰性、類似性という3つの自然な公理を満たす概念的説明へのアプローチを提案する。
次に、従来の概念的説明手法とのつながりを確立し、それらの意味の異なる意味についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-12T20:53:35Z) - The Linear Representation Hypothesis and the Geometry of Large Language Models [12.387530469788738]
インフォーマルに、「線形表現仮説」とは、高次概念がある表現空間の方向として線型に表現されるという考え方である。
線形表現(linear representation)とは何か?
対実対を用いて線形表現のすべての概念を統一する方法を示す。
論文 参考訳(メタデータ) (2023-11-07T01:59:11Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Concept Algebra for (Score-Based) Text-Controlled Generative Models [27.725860408234478]
本稿では,テキスト誘導生成モデルにおける学習表現の構造について述べる。
そのようなモデルの鍵となる性質は、異なる概念を非絡み合いの方法で構成できることである。
ここでは、ある表現空間の部分空間として概念が符号化されるという考えに焦点を当てる。
論文 参考訳(メタデータ) (2023-02-07T20:43:48Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Analyzing Encoded Concepts in Transformer Language Models [21.76062029833023]
ConceptXは、事前訓練された言語モデル内で学習された表現において、潜伏概念がどのように符号化されるかを分析する。
クラスタリングを使用して、符号化された概念を発見し、人間の定義した概念の大規模なセットと整合してそれらを説明する。
論文 参考訳(メタデータ) (2022-06-27T13:32:10Z) - Formalising Concepts as Grounded Abstractions [68.24080871981869]
このレポートは、表現学習が生データから概念を誘導する方法を示しています。
このレポートの主な技術的目標は、表現学習のテクニックが概念空間の格子理論的定式化とどのように結婚できるかを示すことである。
論文 参考訳(メタデータ) (2021-01-13T15:22:01Z) - Space of Reasons and Mathematical Model [8.475081627511166]
推論関係は私たちの概念の使用を支配します。
概念を理解するためには、意味のある空間に配置する必要がある。
重要な質問は: 言語の使用条件はどのように表現できるのか。
論文 参考訳(メタデータ) (2020-07-06T01:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。