論文の概要: Scaling Laws for State Dynamics in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14892v1
- Date: Tue, 20 May 2025 20:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.743001
- Title: Scaling Laws for State Dynamics in Large Language Models
- Title(参考訳): 大規模言語モデルにおける状態ダイナミクスのスケーリング法則
- Authors: Jacob X Li, Shreyas S Raman, Jessica Wan, Fahad Samman, Jazlyn Lin,
- Abstract要約: 大規模言語モデル(LLM)は、内部状態追跡を必要とするタスクでますます使われるようになっている。
LLMが3つの領域(Box Tracking, Abstract DFA Sequences, Complex Text Games)にまたがる決定論的状態ダイナミクスをいかにうまく捉えているかを評価する。
タスク全体にわたって、次の状態予測精度は、状態空間のサイズとスパース遷移の増加とともに低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used in tasks requiring internal state tracking, yet their ability to model state transition dynamics remains poorly understood. We evaluate how well LLMs capture deterministic state dynamics across 3 domains: Box Tracking, Abstract DFA Sequences, and Complex Text Games, each formalizable as a finite-state system. Across tasks, we find that next-state prediction accuracy degrades with increasing state-space size and sparse transitions. GPT-2 XL reaches about 70% accuracy in low-complexity settings but drops below 30% when the number of boxes or states exceeds 5 or 10, respectively. In DFA tasks, Pythia-1B fails to exceed 50% accuracy when the number of states is > 10 and transitions are < 30. Through activation patching, we identify attention heads responsible for propagating state information: GPT-2 XL Layer 22 Head 20, and Pythia-1B Heads at Layers 10, 11, 12, and 14. While these heads successfully move relevant state features, action information is not reliably routed to the final token, indicating weak joint state-action reasoning. Our results suggest that state tracking in LLMs emerges from distributed interactions of next-token heads rather than explicit symbolic computation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、内部の状態追跡を必要とするタスクでますます使われているが、状態遷移のダイナミクスをモデル化する能力は理解されていない。
有限状態系として形式化可能なボックス追跡, 抽象DFAシーケンス, 複合テキストゲームという3つの領域にわたる決定論的状態ダイナミクスをLLMがいかにうまく捉えるかを評価する。
タスク全体にわたって、次の状態予測精度は、状態空間のサイズとスパース遷移の増加とともに低下する。
GPT-2 XLは低複雑さ設定で約70%の精度に達するが、ボックス数や状態が5または10を超えると30%以下に低下する。
DFAタスクでは、Pythia-1B は状態数が > 10 で遷移が 30 未満の場合、50% 以上の精度を達成できない。
GPT-2 XL Layer 22 Head 20, Pythia-1B Heads at Layers 10, 11, 12, 14。
これらのヘッドは関連する状態の特徴をうまく移動させるが、アクション情報は最終的なトークンに確実にルーティングされず、弱い結合状態の推論を示す。
この結果から, LLMにおける状態追跡は, 明示的な記号計算ではなく, 次トーケンヘッドの分散相互作用から生じることが示唆された。
関連論文リスト
- (How) Do Language Models Track State? [50.516691979518164]
トランスフォーマー言語モデル(LM)は、進化している世界の未観測状態を追跡する必要があるように見える振る舞いを示す。
順列を構成するために訓練された、あるいは微調整されたLMにおける状態追跡について検討した。
LMは2つの状態追跡機構のうちの1つを一貫して学習していることを示す。
論文 参考訳(メタデータ) (2025-03-04T18:31:02Z) - Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking [41.3496135369579]
CoT(Chain-of-Thought)は、幅広いタスクにわたる大規模言語モデル(LLM)の性能を大幅に向上させる。
本研究では,Transformer+CoTとその変種の状態追跡機能の評価を行い,CoTの有効性を確認した。
圧縮と区別という2つの指標を提案し、各状態のニューロンセットが100%近い精度を達成することを示す。
論文 参考訳(メタデータ) (2025-02-27T14:24:51Z) - Multistep Inverse Is Not All You Need [87.62730694973696]
実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:36:01Z) - OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary
State Tracking [55.62705574507595]
OpenPIは、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。
手順レベル,ステップレベル,状態変化レベルの3つの問題を分類する。
評価指標として,クラスタベースの計量法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:48:20Z) - Scalable Experimental Bounds for Entangled Quantum State Fidelities [0.0]
ノイズ量子(NISQ)デバイス上での高絡み合い状態の状態準備忠実度の推定は、ベンチマークや応用上の考慮において重要である。
この作業は、NISQデバイスのサイズと品質が向上するにつれて、ベンチマークへの道筋を提供する。
論文 参考訳(メタデータ) (2022-10-06T16:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。