論文の概要: I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?
- arxiv url: http://arxiv.org/abs/2503.08980v1
- Date: Wed, 12 Mar 2025 01:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:20.960566
- Title: I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?
- Title(参考訳): だから私は予測する:次のトークン予測は、データから人間解釈可能な概念を学ぶのに十分か?
- Authors: Yuhang Liu, Dong Gong, Erdun Gao, Zhen Zhang, Biwei Huang, Mingming Gong, Anton van den Hengel, Javen Qinfeng Shi,
- Abstract要約: 大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
- 参考スコア(独自算出の注目度): 79.01538178959726
- License:
- Abstract: The remarkable achievements of large language models (LLMs) have led many to conclude that they exhibit a form of intelligence. This is as opposed to explanations of their capabilities based on their ability to perform relatively simple manipulations of vast volumes of data. To illuminate the distinction between these explanations, we introduce a novel generative model that generates tokens on the basis of human interpretable concepts represented as latent discrete variables. Under mild conditions, even when the mapping from the latent space to the observed space is non-invertible, we establish an identifiability result: the representations learned by LLMs through next-token prediction can be approximately modeled as the logarithm of the posterior probabilities of these latent discrete concepts, up to an invertible linear transformation. This theoretical finding not only provides evidence that LLMs capture underlying generative factors, but also strongly reinforces the linear representation hypothesis, which posits that LLMs learn linear representations of human-interpretable concepts. Empirically, we validate our theoretical results through evaluations on both simulation data and the Pythia, Llama, and DeepSeek model families.
- Abstract(参考訳): 大型言語モデル(LLM)の顕著な成果は、多くの人が知性の形式を示すと結論づけている。
これは、大量のデータの比較的単純な操作を行う能力に基づく、それらの能力の説明とは対照的である。
これらの説明の区別を照らし出すために,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを導入する。
温和な条件下では、潜在空間から観測空間への写像が可逆である場合でも、次トーケン予想を通して LLM によって学習された表現は、これらの潜在離散概念の後続確率の対数として、可逆線型変換まで概ねモデル化することができる。
この理論的な発見は、LLMが根底にある生成因子を捉えているという証拠を提供するだけでなく、LLMが人間の解釈可能な概念の線形表現を学ぶことを示唆する線形表現仮説を強く補強する。
実験により,シミュレーションデータとPythia,Llama,DeepSeekのモデルファミリによる評価により理論的結果を検証する。
関連論文リスト
- Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - The Information of Large Language Model Geometry [3.4003124816653143]
本研究では,表現エントロピーを解析し,モデルサイズとの関係を明らかにするシミュレーションを行う。
本稿では,スケーリング法則現象を解明するための(条件付き)エントロピーに基づく理論を提案する。
論文 参考訳(メタデータ) (2024-02-01T12:50:43Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Provable concept learning for interpretable predictions using
variational inference [7.0349768355860895]
安全クリティカルなアプリケーションでは、解釈可能な説明が得られない場合、実践者はニューラルネットワークを信頼することを避けます。
我々は(C)概念(L)アーニングと(P)ディディクション(CLAP)を導出する確率論的モデリングフレームワークを提案する。
本手法は最適な分類精度を保ちながら同定できることを実証する。
論文 参考訳(メタデータ) (2022-04-01T14:51:38Z) - Interpretable Representations in Explainable AI: From Theory to Practice [7.031336702345381]
解釈可能な表現は、ブラックボックス予測システムをターゲットにした多くの説明器のバックボーンである。
人間の理解可能な概念の存在と欠如をエンコードする解釈可能な表現の特性について検討する。
論文 参考訳(メタデータ) (2020-08-16T21:44:03Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。