論文の概要: To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
- arxiv url: http://arxiv.org/abs/2510.14826v1
- Date: Thu, 16 Oct 2025 16:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.93696
- Title: To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
- Title(参考訳): InfinityとBeyond: 状態空間モデルにおけるツール使用長の一般化
- Authors: Eran Malach, Omid Saremi, Sinead Williamson, Arwen Bradley, Aryo Lotfi, Emmanuel Abbe, Josh Susskind, Etai Littwin,
- Abstract要約: State Space Models (SSM) は、シークエンスモデリングのためのTransformerの先駆的な代替品となっている。
我々は,SSMが任意の難解な問題を解くことを学習し,任意の問題長/複雑度に一般化できることを示す。
ツール拡張されたSSMは、様々な算術、推論、コーディングタスクにおいて、目覚ましい長さの一般化を実現することを実証する。
- 参考スコア(独自算出の注目度): 33.42006504450496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Models (SSMs) have become the leading alternative to Transformers for sequence modeling. Their primary advantage is efficiency in long-context and long-form generation, enabled by fixed-size memory and linear scaling of computational complexity. We begin this work by showing a simple theoretical result stating that SSMs cannot accurately solve any ``truly long-form'' generation problem (in a sense we formally define), undermining their main competitive advantage. However, we show that this limitation can be mitigated by allowing SSMs interactive access to external tools. In fact, we show that given the right choice of tool access and problem-dependent training data, SSMs can learn to solve any tractable problem and generalize to arbitrary problem length/complexity (i.e., achieve length generalization). Following our theoretical finding, we demonstrate that tool-augmented SSMs achieve remarkable length generalization on a variety of arithmetic, reasoning, and coding tasks. These findings highlight SSMs as a potential efficient alternative to Transformers in interactive tool-based and agentic settings.
- Abstract(参考訳): State Space Models (SSM) は、シーケンシャルモデリングのためのTransformerの先駆的な代替品となっている。
その主な利点は長文および長文生成における効率性であり、固定サイズのメモリと計算複雑性の線形スケーリングによって実現されている。
この研究は、SSMが「真に長い形式」の生成問題を正確に解けないという単純な理論結果を示すことから始まり、その主な競争優位性を損なう。
しかし,SSMが外部ツールにインタラクティブにアクセスできることによって,この制限を緩和できることを示す。
実際、ツールアクセスと問題依存型トレーニングデータの適切な選択を前提として、SSMは任意のトラクタブルな問題の解法を学習し、任意の問題長/複雑度(すなわち、長さの一般化)に一般化することができる。
理論的な発見に続いて、ツール拡張されたSSMが、様々な算術、推論、コーディングタスクにおいて顕著な長さの一般化を実現することを示す。
これらの結果は、対話型ツールベースおよびエージェント的設定において、トランスフォーマーに代わる潜在的に効率的な代替手段として、SSMが注目されている。
関連論文リスト
- The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner [71.41162392872393]
本稿では,大規模言語モデルの長さ一般化能力を向上させるため,Turing Machine Imitation Learning (TAIL)を提案する。
TAILはコンピュータプログラムによってチューリングマシンの実行プロセスを模倣するチェーン・オブ・思想(CoT)データを合成する。
ベルとホイッスルがなければ、TAILは様々なタスクにおけるQwen2.5-7Bの性能と同様に、長さの一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-07-17T17:50:07Z) - Leveraging State Space Models in Long Range Genomics [1.130790932059036]
長距離依存関係はゲノム構造や機能を理解する上で重要であるが、ほとんどの従来の手法はそれらと競合する。
我々は、長距離ゲノミクスモデリングタスクにおいて、2つのSSMにインスパイアされたアーキテクチャをベンチマークすることで、ステートスペースモデル(SSM)を有望な代替手段として検討する。
SSMは、トランスフォーマーのパフォーマンスにマッチし、複数のタスクにまたがる印象的なゼロショット外挿を示し、トレーニング中に見られるものより10倍から100倍長いコンテキストを処理する。
論文 参考訳(メタデータ) (2025-04-07T18:34:06Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - START: A Generalized State Space Model with Saliency-Driven Token-Aware Transformation [27.301312891532277]
ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインから学習することで、モデルが対象ドメインを見えないように一般化できるようにすることを目的としている。
本稿では,最新技術(SOTA)のパフォーマンスを達成し,CNNやViTと競合する代替手段を提供するSTARTを提案する。
我々のSTARTは、SSMの入力依存行列内の有意なトークンのドメイン固有の特徴を選択的に摂動し、抑制することができるため、異なるドメイン間の差異を効果的に低減できる。
論文 参考訳(メタデータ) (2024-10-21T13:50:32Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。