論文の概要: States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly
- arxiv url: http://arxiv.org/abs/2407.11421v1
- Date: Tue, 16 Jul 2024 06:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 16:22:29.744281
- Title: States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly
- Title(参考訳): 隠れた州に隠れた州: LLMは国家表現を重要視
- Authors: Junhao Chen, Shengding Hu, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 本稿では,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに,拡張された計算列を実行する本質的な能力を明らかにする。
注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
- 参考スコア(独自算出の注目度): 72.24742240125369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit various emergent abilities. Among these abilities, some might reveal the internal working mechanisms of models. In this paper, we uncover a novel emergent capability in models: the intrinsic ability to perform extended sequences of calculations without relying on chain-of-thought step-by-step solutions. Remarkably, the most advanced models can directly output the results of two-digit number additions with lengths extending up to 15 addends. We hypothesize that the model emerges Implicit Discrete State Representations (IDSRs) within its hidden states and performs symbolic calculations internally. To test this hypothesis, we design a sequence of experiments that look into the hidden states. Specifically, we first confirm that IDSRs exist. Then, we provide interesting observations about the formation of IDSRs from layer, digit, and sequence perspectives. Finally, we confirm that models indeed use IDSRs to produce the final answers. However, we also discover that these state representations are far from lossless in current open-sourced models, leading to inaccuracies in their final performance. Our work presents a novel exploration of LLMs' symbolic calculation abilities and the underlying mechanisms.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な創発的な能力を示す。
これらの能力の中には、モデルの内部動作機構を明らかにするものもある。
本稿では,モデルにおける新たな創発的能力,すなわち,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに計算列を拡張できる本質的な能力を明らかにする。
注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
我々は,本モデルが隠れ状態内にインプリシット離散状態表現(IDSR)を出現させ,内部でシンボル計算を行うという仮説を立てる。
この仮説をテストするために、隠れた状態を調べる一連の実験を設計する。
具体的には、IDSRが存在することを最初に確認する。
次に,レイヤ,ディジット,シーケンスの観点からのIDSRの生成について興味深い観察を行った。
最後に,モデルがIDSRを用いて最終回答を生成することを確認した。
しかし、これらの状態表現は、現在のオープンソースモデルでは損失のないものではないことが分かり、最終的な性能が不正確であることが判明した。
本研究は,LLMの記号計算能力とその基礎となるメカニズムを新たに探求するものである。
関連論文リスト
- Exploring Diverse Representations for Open Set Recognition [51.39557024591446]
オープンセット認識(OSR)では、テスト中に未知のサンプルを拒絶しながら、クローズドセットに属するサンプルを分類する必要がある。
現在、生成モデルはOSRの差別モデルよりもよく機能している。
本稿では,多種多様な表現を識別的に学習するMulti-Expert Diverse Attention Fusion(MEDAF)を提案する。
論文 参考訳(メタデータ) (2024-01-12T11:40:22Z) - Emergence of Abstract State Representations in Embodied Sequence
Modeling [24.827284626429964]
シーケンスモデリングは、アクションを予測トークンとしてモデル化する言語モデルの成功を模倣することを目的としている。
学習モデルの内部アクティベーションから環境レイアウトを合理的に再構築できることを示す。
我々の結果は、より複雑な具体的決定領域へのシーケンスモデリングの目的の適用に対する楽観的な展望を支持する。
論文 参考訳(メタデータ) (2023-11-03T18:00:59Z) - Recurrent Neural Language Models as Probabilistic Finite-state Automata [66.23172872811594]
RNN LMが表現できる確率分布のクラスについて検討する。
単純なRNNは確率的有限状態オートマトンの部分クラスと同値であることを示す。
これらの結果は、RNN LMが表現できる分布のクラスを特徴付けるための第一歩を示す。
論文 参考訳(メタデータ) (2023-10-08T13:36:05Z) - Structured Thoughts Automaton: First Formalized Execution Model for
Auto-Regressive Language Models [0.0]
我々は,信頼性の高い検査可能な実行モデルを構築するために,LMの予測をサンプリングする新しいアルゴリズムを提案する。
この実行モデルに「認知プログラム」を書くための低レベル言語を導入する。
論文 参考訳(メタデータ) (2023-06-16T22:04:50Z) - Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task [75.35278593566068]
言語モデルは驚くべき範囲の能力を示しているが、その明らかな能力の源泉は不明である。
これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか?
簡単なボードゲームOthelloにおける法的な動きを予測するタスクに,GPTモデルの変種を適用して検討する。
論文 参考訳(メタデータ) (2022-10-24T16:29:55Z) - Linear-Time Verification of Data-Aware Dynamic Systems with Arithmetic [8.914271888521652]
我々は、忠実な有限状態抽象の存在を保証する「有限要約」という新しい意味的特性を導入する。
形式的手法やデータベース理論で研究されたいくつかの決定可能性条件は、この性質の具体的かつチェック可能な例と見なすことができる。
我々の結果は、以前のアプローチでは手の届かないシステムを分析することを可能にする。
論文 参考訳(メタデータ) (2022-03-15T15:14:25Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。
我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文 参考訳(メタデータ) (2021-12-08T10:39:13Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。