論文の概要: Learning State-Tracking from Code Using Linear RNNs
- arxiv url: http://arxiv.org/abs/2602.14814v1
- Date: Mon, 16 Feb 2026 15:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.477564
- Title: Learning State-Tracking from Code Using Linear RNNs
- Title(参考訳): 線形RNNを用いたコードからの状態追跡学習
- Authors: Julien Siems, Riccardo Grazzi, Kirill Kalinin, Hitesh Ballani, Babak Rahmani,
- Abstract要約: 状態追跡タスク、特に置換合成は、シーケンスモデルの限界を理解するためのテストベッドになっている。
我々は、置換合成を、印刷と可変変換を通じて状態参照をインターリーブするトレースを通じてコードに変換する。
この設定では、状態追跡可能な線形RNNも優れているが、Transformerは依然として失敗している。
- 参考スコア(独自算出の注目度): 9.240655196259818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last years, state-tracking tasks, particularly permutation composition, have become a testbed to understand the limits of sequence models architectures like Transformers and RNNs (linear and non-linear). However, these are often sequence-to-sequence tasks: learning to map actions (permutations) to states, which is incompatible with the next-token prediction setting commonly used to train language models. We address this gap by converting permutation composition into code via REPL traces that interleave state-reveals through prints and variable transformations. We show that linear RNNs capable of state-tracking excel also in this setting, while Transformers still fail. Motivated by this representation, we investigate why tracking states in code is generally difficult: actions are not always fully observable. We frame this as tracking the state of a probabilistic finite-state automaton with deterministic state reveals and show that linear RNNs can be worse than non-linear RNNs at tracking states in this setup.
- Abstract(参考訳): ここ数年、状態追跡タスク、特に置換合成は、TransformerやRNN(線形および非線形)のようなシーケンスモデルアーキテクチャの限界を理解するためのテストベッドになっている。
しかしながら、これらはシーケンシャル・ツー・シーケンスのタスクであることが多い: アクション(置換)を状態にマッピングする学習。
このギャップに対処するために、置換合成をREPLトレース経由でコードに変換し、印刷や可変変換を通じて状態のリベラルをインターリーブする。
この設定では、状態追跡可能な線形RNNも優れているが、Transformerは依然として失敗している。
この表現によって動機づけられた私たちは、コードの状態を追跡することが一般的に難しい理由を調査する。
我々はこれを確率的有限状態オートマトンの状態と決定論的状態の追跡とみなし、この設定において線形RNNが非線形RNNよりも悪化することを示す。
関連論文リスト
- Can Local Representation Alignment RNNs Solve Temporal Tasks? [1.1085024199293136]
リカレントニューラルネットワーク(RNN)は、リアルタイム処理、ストリーミングデータ、トレーニングサンプルの量を制限するケースに一般的に使用される。
BPTTはRNNを訓練するための主要なアルゴリズムであるが、爆発し、勾配が消えやすいとしばしば批判されている。
本稿では,ローカル更新を用いて,その不安定性を低減しようとするRNNに対して,ターゲット伝搬に基づく手法を提示し,評価する。
論文 参考訳(メタデータ) (2025-04-18T07:48:48Z) - Fixed-Point RNNs: Interpolating from Diagonal to Dense [18.06917701940596]
リニアリカレントニューラルネットワーク(RNN)とステートスペースモデル(SSM)は、トランスフォーマーアーキテクチャにおけるシーケンス混合層としてのソフトマックスアテンションに代わる有望な代替手段となっている。
しかし、現在のモデルはチャネルワイド(対角)配列の混合に依存するため、RNNの完全な状態追跡表現性は示さない。
本稿では, 並列化可能な対角RNNの固定点としての高密度線形RNNのパラメータ化について検討する。
論文 参考訳(メタデータ) (2025-03-13T18:50:22Z) - (How) Do Language Models Track State? [52.03388573068501]
トランスフォーマー言語モデル(LM)は、進化する世界の未観測状態を追跡する必要があるように見える振る舞いを示す。
順列を構成するために訓練された、あるいは微調整されたLMにおける状態追跡について検討した。
LMは2つの状態追跡機構のうちの1つを一貫して学習していることを示す。
論文 参考訳(メタデータ) (2025-03-04T18:31:02Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - State-Regularized Recurrent Neural Networks to Extract Automata and
Explain Predictions [29.84563789289183]
状態規則化は、RNNを学習可能な有限の状態間で遷移させる。
本研究では,(1)自動抽出を目的とした正規言語における状態規則化RNNの評価,(2)外部記憶を必要とするバランスの取れた括弧やパリンドロムなどの非正規言語,(3)感情分析,視覚オブジェクト認識,テキスト分類のための実単語シーケンス学習タスクについて述べる。
論文 参考訳(メタデータ) (2022-12-10T02:06:27Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Nonlinear State-Space Generalizations of Graph Convolutional Neural
Networks [172.18295279061607]
グラフ畳み込みニューラルネットワーク(GCNN)は、線形グラフ畳み込みを非線形にネストすることで、ネットワークデータから構成表現を学習する。
本稿では,GCNNを状態空間の観点からアプローチし,グラフ畳み込みモジュールが最小値線形状態空間モデルであることを明らかにする。
この状態更新は、非パラメトリックであり、グラフスペクトルによって爆発または消滅する可能性があるため、問題となる可能性がある。
本稿では,非線形な状態空間パラメトリック方式でノード特徴を階層内に集約し,よりよいトレードオフを実現するという,新しい結節集合規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:48:56Z) - Learning Long-Term Dependencies in Irregularly-Sampled Time Series [16.762335749650717]
連続時間隠れ状態を持つリカレントニューラルネットワーク(RNN)は、不規則サンプリング時系列のモデリングに自然に適合する。
我々は、標準のRNNと同様、この問題の根底にある理由は、トレーニング中に勾配が消滅または爆発することにあることを証明している。
我々は,その時間連続状態からメモリを分離する長寿命メモリ(LSTM)に基づく新しいアルゴリズムを設計することで,その解を提供する。
論文 参考訳(メタデータ) (2020-06-08T08:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。