論文の概要: Scaling Laws for State Dynamics in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14892v1
- Date: Tue, 20 May 2025 20:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.743001
- Title: Scaling Laws for State Dynamics in Large Language Models
- Title(参考訳): 大規模言語モデルにおける状態ダイナミクスのスケーリング法則
- Authors: Jacob X Li, Shreyas S Raman, Jessica Wan, Fahad Samman, Jazlyn Lin,
- Abstract要約: 大規模言語モデル(LLM)は、内部状態追跡を必要とするタスクでますます使われるようになっている。
LLMが3つの領域(Box Tracking, Abstract DFA Sequences, Complex Text Games)にまたがる決定論的状態ダイナミクスをいかにうまく捉えているかを評価する。
タスク全体にわたって、次の状態予測精度は、状態空間のサイズとスパース遷移の増加とともに低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used in tasks requiring internal state tracking, yet their ability to model state transition dynamics remains poorly understood. We evaluate how well LLMs capture deterministic state dynamics across 3 domains: Box Tracking, Abstract DFA Sequences, and Complex Text Games, each formalizable as a finite-state system. Across tasks, we find that next-state prediction accuracy degrades with increasing state-space size and sparse transitions. GPT-2 XL reaches about 70% accuracy in low-complexity settings but drops below 30% when the number of boxes or states exceeds 5 or 10, respectively. In DFA tasks, Pythia-1B fails to exceed 50% accuracy when the number of states is > 10 and transitions are < 30. Through activation patching, we identify attention heads responsible for propagating state information: GPT-2 XL Layer 22 Head 20, and Pythia-1B Heads at Layers 10, 11, 12, and 14. While these heads successfully move relevant state features, action information is not reliably routed to the final token, indicating weak joint state-action reasoning. Our results suggest that state tracking in LLMs emerges from distributed interactions of next-token heads rather than explicit symbolic computation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、内部の状態追跡を必要とするタスクでますます使われているが、状態遷移のダイナミクスをモデル化する能力は理解されていない。
有限状態系として形式化可能なボックス追跡, 抽象DFAシーケンス, 複合テキストゲームという3つの領域にわたる決定論的状態ダイナミクスをLLMがいかにうまく捉えるかを評価する。
タスク全体にわたって、次の状態予測精度は、状態空間のサイズとスパース遷移の増加とともに低下する。
GPT-2 XLは低複雑さ設定で約70%の精度に達するが、ボックス数や状態が5または10を超えると30%以下に低下する。
DFAタスクでは、Pythia-1B は状態数が > 10 で遷移が 30 未満の場合、50% 以上の精度を達成できない。
GPT-2 XL Layer 22 Head 20, Pythia-1B Heads at Layers 10, 11, 12, 14。
これらのヘッドは関連する状態の特徴をうまく移動させるが、アクション情報は最終的なトークンに確実にルーティングされず、弱い結合状態の推論を示す。
この結果から, LLMにおける状態追跡は, 明示的な記号計算ではなく, 次トーケンヘッドの分散相互作用から生じることが示唆された。
関連論文リスト
- GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Multi-Granular Discretization for Interpretable Generalization in Precise Cyberattack Identification [0.0]
解釈可能な一般化(IG)メカニズムはコヒーレントパターンの学習に使用される。
IG-MDはいくつかのガウスの解像度で全ての連続的な特徴を表す。
UKM-IDS20では、IG-MDは9回の列車試験で4ポイント以上の精度を引き上げている。
論文 参考訳(メタデータ) (2025-07-16T12:57:38Z) - Augmenting Multi-Agent Communication with State Delta Trajectory [31.127137626348098]
本稿では,自然言語トークンとトークンワイド状態遷移トラジェクトリの両方をひとつのエージェントから別のエージェントに転送する新しい通信プロトコルを提案する。
それぞれのトークンを生成した後のLSMの状態変化のシーケンスは、推論プロセスの裏側に隠された情報をよりよく反映できることがわかった。
実験の結果,SDEを用いたマルチエージェントシステムでは,他の通信プロトコルと比較してSOTAの性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-06-24T00:38:25Z) - (How) Do Language Models Track State? [50.516691979518164]
トランスフォーマー言語モデル(LM)は、進化している世界の未観測状態を追跡する必要があるように見える振る舞いを示す。
順列を構成するために訓練された、あるいは微調整されたLMにおける状態追跡について検討した。
LMは2つの状態追跡機構のうちの1つを一貫して学習していることを示す。
論文 参考訳(メタデータ) (2025-03-04T18:31:02Z) - Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking [41.3496135369579]
CoT(Chain-of-Thought)は、幅広いタスクにわたる大規模言語モデル(LLM)の性能を大幅に向上させる。
本研究では,Transformer+CoTとその変種の状態追跡機能の評価を行い,CoTの有効性を確認した。
圧縮と区別という2つの指標を提案し、各状態のニューロンセットが100%近い精度を達成することを示す。
論文 参考訳(メタデータ) (2025-02-27T14:24:51Z) - States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly [72.24742240125369]
本稿では,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに,拡張された計算列を実行する本質的な能力を明らかにする。
注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
論文 参考訳(メタデータ) (2024-07-16T06:27:22Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - Multistep Inverse Is Not All You Need [87.62730694973696]
実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:36:01Z) - OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary
State Tracking [55.62705574507595]
OpenPIは、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。
手順レベル,ステップレベル,状態変化レベルの3つの問題を分類する。
評価指標として,クラスタベースの計量法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:48:20Z) - Scalable Experimental Bounds for Entangled Quantum State Fidelities [0.0]
ノイズ量子(NISQ)デバイス上での高絡み合い状態の状態準備忠実度の推定は、ベンチマークや応用上の考慮において重要である。
この作業は、NISQデバイスのサイズと品質が向上するにつれて、ベンチマークへの道筋を提供する。
論文 参考訳(メタデータ) (2022-10-06T16:52:45Z) - A Contextual Hierarchical Attention Network with Adaptive Objective for
Dialogue State Tracking [63.94927237189888]
本稿では,コンテキスト階層型アテンションネットワークを用いて対話状態追跡(DST)を強化することを提案する。
また,訓練中に異なるスロットの重みを動的に調整することでスロット不均衡問題を緩和する適応的目標を提案する。
実験の結果,MultiWOZ 2.0とMultiWOZ 2.1データセットでは52.68%,58.55%のジョイント精度が得られた。
論文 参考訳(メタデータ) (2020-06-02T12:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。