論文の概要: Two-Scale Latent Dynamics for Recurrent-Depth Transformers
- arxiv url: http://arxiv.org/abs/2509.23314v1
- Date: Sat, 27 Sep 2025 14:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.152513
- Title: Two-Scale Latent Dynamics for Recurrent-Depth Transformers
- Title(参考訳): リカレントディープス変圧器の2次元潜時ダイナミクス
- Authors: Francesco Pappone, Donato Crisostomi, Emanuele Rodolà,
- Abstract要約: トークンを出力する前に遅延計算を繰り返すことにより、電流深度変換器の幾何学がテスト時間計算をスケールする。
チェックポイント全体では、ループステップがより小さくなり、互いに直交する傾向が増している。
これらのダイナミクスは、ステップサイズにおけるモデルの2階差に基づく早期退避機構を動機付けている。
- 参考スコア(独自算出の注目度): 18.852161704625562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent-depth transformers scale test-time compute by iterating latent computations before emitting tokens. We study the geometry of these iterates and argue for a simple, \emph{two-scale} operational picture: (i) within a looped block, updates act as \emph{small-scale refinements}; (ii) across consecutive blocks, states undergo a \emph{larger-scale drift}. Across checkpoints, our measurements show that loop steps become \emph{smaller} and increasingly \emph{orthogonal} to one another, indicating better local modeling of fine structure rather than merely pushing in a single direction. These dynamics motivate an early-exit mechanism based on the model's second-order difference in step-size, which we show is superior in terms of performance, stability and time-efficiency, when compared to the KL-divergence exit strategy of Geiping et al. and its naive first-order counterpart.
- Abstract(参考訳): リカレントディープストランスフォーマーは、トークンを発行する前に遅延計算を繰り返すことによって、テスト時間計算をスケールする。
これらの反復の幾何学を考察し、簡単な「emph{two-scale}オペレーティング・ピクチャ」について論じる。
i) ループブロック内では、更新は \emph{small-scale refinements} として機能する。
(ii) 連続したブロックにまたがって、状態は \emph{larger-scale drift} となる。
チェックポイント全体では,ループステップが,単に1方向に進むのではなく,微細構造を局所的にモデル化した方がよいことを示す。
これらのダイナミクスは、Geiping et al の KL-divergence exit strategy とそれと比べ、性能、安定性、時間効率の点で優れていることを示す、ステップサイズにおけるモデルの2階差に基づく早期退避機構を動機付けている。
関連論文リスト
- Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。
提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-09-08T17:59:59Z) - Phase transition of \emph{descending} phase retrieval algorithms [0.0]
本研究では,位相探索アルゴリズムの理論的限界について検討する。
我々は、エンファラメトリー多様体の概念とそのエンファネリング点を重要な数学的対象として識別する。
論文 参考訳(メタデータ) (2025-06-23T04:10:35Z) - AutoHFormer: Efficient Hierarchical Autoregressive Transformer for Time Series Prediction [36.239648954658534]
時系列予測には、3つの競合する目標を同時に達成するアーキテクチャが必要である。
本稿では,これらの課題に対処する階層型自己回帰変換器であるAutoHFormerを紹介する。
総合的な実験により、AutoHFormer 10.76XはP08のPatchTSTと比較して高速なトレーニングと6.06倍のメモリ削減を示した。
論文 参考訳(メタデータ) (2025-06-19T03:47:04Z) - Convergence rates of stochastic gradient method with independent sequences of step-size and momentum weight [1.4141453107129398]
我々はPolyakの加速度を用いたプログラミングを用いて収束速度を解析する。
収束速度は、ステップサイズおよび運動量重みにおいて指数的に記述できることを示す。
論文 参考訳(メタデータ) (2024-07-31T04:25:39Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning [13.908826484332282]
最適化問題の解法として,新しい2段階勾配法を提案する。
最初の貢献は、提案した2時間スケール勾配アルゴリズムの有限時間複雑性を特徴づけることである。
我々は、強化学習における勾配に基づく政策評価アルゴリズムに適用する。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。