論文の概要: State Stream Transformer (SST) : Emergent Metacognitive Behaviours Through Latent State Persistence
- arxiv url: http://arxiv.org/abs/2501.18356v1
- Date: Thu, 30 Jan 2025 14:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:47.074487
- Title: State Stream Transformer (SST) : Emergent Metacognitive Behaviours Through Latent State Persistence
- Title(参考訳): 状態流変圧器(SST) : 潜時状態持続による創発的メタ認知行動
- Authors: Thea Aviss,
- Abstract要約: State Stream Transformer (SST) は、事前訓練された重みで遅延した突発的な推論動作を示す新しいLCMアーキテクチャである。
SSTは、自己回帰世代を通して永続的な潜伏過程を維持し、進化させる重み付き崩壊を伴うスライディングウィンドウ潜伏状態(FFN)キャッシュを導入している。
SSTは、GSM-8K(0ショット)で89.01%、ARC Challenge(0ショットCoT)で91.04%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce the State Stream Transformer (SST), a novel LLM architecture that reveals emergent reasoning behaviours and capabilities latent in pretrained weights through addressing a fundamental limitation in traditional transformer models: the lack of latent computational continuity across autoregressive generations in the state space. SST introduces a sliding window latent state (FFN) cache with weighted decay that maintains and evolves persistent latent processes throughout autoregressive generations. Through controlled experiments comparing base and SST architectures using the same frozen weights, we demonstrate that this architectural modification alone enables enhanced reasoning capabilities which appear best explained by some form of potential higher-order processing, as evidenced by emergent metacognitive behaviours. These behaviours persist under controlled conditions designed to eliminate confounding factors such as stochastic variation or learned response patterns. Analysis of latent state distributions and processing dynamics provides evidence that it is solely the 'state stream' that is responsible for these phenomena. In quantitative evaluations, the SST achieves substantial performance improvements over the base model on two reasoning benchmarks, reaching 89.01\% accuracy on GSM-8K (0-shot) and 91.04\% on ARC Challenge (0-shot CoT). These findings indicate that persistent computation in the latent state space enables fundamentally different information processing and internal reasoning strategies, with implications for our understanding of artificial intelligence systems.
- Abstract(参考訳): 我々は,従来の変圧器モデルの基本的制約に対処することで,事前学習重み付けで潜伏する突発的推論行動と能力を明らかにする新しいLCMアーキテクチャであるState Stream Transformer(SST)を紹介した。
SSTは、自己回帰世代を通して永続的な潜伏過程を維持し、進化させる重み付き崩壊を伴うスライディングウィンドウ潜伏状態(FFN)キャッシュを導入している。
同じ凍結重みを用いたベースおよびSSTアーキテクチャの比較実験を通じて、このアーキテクチャ変更だけで、創発的メタ認知行動によって証明されるような、ある種の高次処理によって最もよく説明されるような、拡張された推論機能のみを実現することを実証する。
これらの振る舞いは、確率的変動や学習された応答パターンなどの相反する要因を排除するために設計された制御された条件下で継続する。
潜在状態分布の解析と処理力学は、それがこれらの現象の原因となる「状態の流れ」のみであることを示す証拠となる。
定量的評価において、SSTは、GSM-8K (0-shot) で89.01\%、ARC Challenge (0-shot CoT) で91.04\%に達する2つの推論ベンチマークにおいて、ベースモデルに対する大幅な性能改善を実現している。
これらの結果は、潜在状態空間における永続的な計算が、基本的に異なる情報処理と内部推論戦略を可能にし、人工知能システムの理解に意味があることを示唆している。
関連論文リスト
- Causal Temporal Representation Learning with Nonstationary Sparse Transition [22.6420431022419]
Causal Temporal Representation Learning (Ctrl) 法は、複雑な非定常時間列の時間的因果ダイナミクスを特定することを目的としている。
この研究は、人間の直感的な理解と整合したスパース遷移の仮定を採用し、理論的な観点から識別可能性の結果を提示している。
本稿では,非定常スパース遷移を用いた因果時間表現学習(CtrlNS)を提案する。
論文 参考訳(メタデータ) (2024-09-05T00:38:27Z) - Sequential Representation Learning via Static-Dynamic Conditional Disentanglement [58.19137637859017]
本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。
本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破る新しいモデルを提案する。
実験により、提案手法は、シーンのダイナミックスが内容に影響されるシナリオにおいて、従来の複雑な最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-10T17:04:39Z) - AiGAS-dEVL: An Adaptive Incremental Neural Gas Model for Drifting Data Streams under Extreme Verification Latency [6.7236795813629]
ストリーミング設定では、データフローはパターン(コンセプトドリフト)の非定常性をもたらす要因によって影響を受ける。
本稿では,AiGAS-dEVLという新しい手法を提案する。これは,時間とともにストリーム内で検出されるすべての概念の分布を特徴付けるために,神経ガスの増大に依存する。
我々のアプローチは、時間とともにこれらの点の挙動をオンライン分析することで、特徴空間における概念の進化が定義できるようになることを明らかにしている。
論文 参考訳(メタデータ) (2024-07-07T14:04:57Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Modeling Spatio-temporal Dynamical Systems with Neural Discrete Learning
and Levels-of-Experts [33.335735613579914]
本稿では,ビデオフレームなどの観測結果に基づいて,時間・動的システムの状態変化をモデル化し,推定することの課題に対処する。
本稿では、一般的な物理プロセスの法則をデータ駆動方式で捉えるために、ユニバーサルエキスパートモジュール、すなわち光フロー推定コンポーネントを提案する。
我々は、既存のSOTAベースラインと比較して、提案フレームワークが大きなパフォーマンスマージンを達成することを示すため、広範囲な実験と改善を実施している。
論文 参考訳(メタデータ) (2024-02-06T06:27:07Z) - Seeing the Unseen: Learning Basis Confounder Representations for Robust Traffic Prediction [41.59726314922999]
交通予測はインテリジェント交通システムと都市コンピューティングにとって不可欠である。
各種統計・深層学習手法を用いて, 過去の交通データXと将来の交通状況Yの関係を確立することを目的とする。
X -> Y の関係は、しばしば X と Y の両方に同時に影響を与える外部共同設立者の影響を受けている。
既存のディープラーニングトラフィック予測モデルでは、共同創業者の問題に対処するために、古典的なフロントドアとバックドアの調整が採用されている。
論文 参考訳(メタデータ) (2023-11-21T09:33:13Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。
実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文 参考訳(メタデータ) (2023-10-01T21:19:12Z) - Impact of conditional modelling for a universal autoregressive quantum
state [0.0]
ニューラルネットワークにおける畳み込み層の類似体としてフィルタを導入し、任意の量子状態に翻訳的対称性付き相関を組み込む。
得られた帰納バイアスが変動柔軟性,対称性,保存量に与える影響を解析した。
論文 参考訳(メタデータ) (2023-06-09T14:17:32Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。