論文の概要: Recurrence-Complete Frame-based Action Models
- arxiv url: http://arxiv.org/abs/2510.06828v1
- Date: Wed, 08 Oct 2025 09:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.404256
- Title: Recurrence-Complete Frame-based Action Models
- Title(参考訳): Recurrence-Complete Frame-based Action Models
- Authors: Michael Keiblinger,
- Abstract要約: Attention Is All You Need" は、RNN細胞は注意とともに必要ではないと主張していることで有名である。
我々は、非再帰完全モデルが入力を正しく集約できない臨界時間tを予想する。
これを解決するために、繰り返し完全アーキテクチャを導入し、GitHubから派生したアクションシーケンスでトレーニングします。
- 参考スコア(独自算出の注目度): 0.06768558752130312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, attention-like mechanisms have been used to great success in the space of large language models, unlocking scaling potential to a previously unthinkable extent. "Attention Is All You Need" famously claims RNN cells are not needed in conjunction with attention. We challenge this view. In this paper, we point to existing proofs that architectures with fully parallelizable forward or backward passes cannot represent classes of problems specifically interesting for long-running agentic tasks. We further conjecture a critical time t beyond which non-recurrence-complete models fail to aggregate inputs correctly, with concrete implications for agentic systems (e.g., software engineering agents). To address this, we introduce a recurrence-complete architecture and train it on GitHub-derived action sequences. Loss follows a power law in the trained sequence length while the parameter count remains fixed. Moreover, longer-sequence training always amortizes its linearly increasing wall-time cost, yielding lower loss as a function of wall time.
- Abstract(参考訳): 近年、注意のようなメカニズムが大規模言語モデルの領域で大きな成功を収めるために使われており、スケーリングの可能性はそれまで考えられていなかった範囲に開放されている。
Attention Is All You Need" は、RNN細胞は注意とともに必要ではないと主張していることで有名である。
私たちはこの見解に異議を唱える。
本稿では,完全並列化可能な前方・後方通過型アーキテクチャでは,長時間動作するエージェントタスクに特に関心のある問題のクラスを表現できない,という既存の証明を指摘する。
さらに、非再帰完全モデルは、エージェントシステム(例えば、ソフトウェア工学エージェント)に具体的な意味を持ちながら、入力を正しく集約できない臨界時間tを予想する。
これを解決するために、繰り返し完全アーキテクチャを導入し、GitHubから派生したアクションシーケンスでトレーニングします。
損失は、パラメータ数が固定されている間、トレーニングされたシーケンス長のパワー則に従う。
さらに、長いシーケンスのトレーニングは、壁時間コストを線形に増加させ、壁時間の関数として損失を減少させる。
関連論文リスト
- CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - On The Computational Complexity of Self-Attention [22.3395465641384]
現代の変圧器は、時間と空間の複雑さが入力の長さの2乗である自己認識機構に依存している。
我々は、強い指数時間仮説(SETH)が偽でない限り、自己注意の時間複雑性は入力長において必然的に二次的であることを証明した。
下界を補うものとして、有限テイラー級数を用いて線型時間でドット積自己アテンションを近似することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-09-11T14:38:10Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - End-to-end Algorithm Synthesis with Recurrent Networks: Logical
Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。
本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。
また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文 参考訳(メタデータ) (2022-02-11T18:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。