論文の概要: Continuous-Depth Transformers with Learned Control Dynamics
- arxiv url: http://arxiv.org/abs/2601.10007v1
- Date: Thu, 15 Jan 2026 02:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.959006
- Title: Continuous-Depth Transformers with Learned Control Dynamics
- Title(参考訳): 制御ダイナミクスを学習した連続深度変圧器
- Authors: Peter Jemley,
- Abstract要約: 本稿では,離散的な中間層を連続的なニューラル正規微分方程式ブロックに置き換えるハイブリッドトランスフォーマーアーキテクチャを提案する。
提案手法は,学習ベクトル場$F_(H, u)$で制御される連続変数として深度を扱い,$u$は明示的な連結によって注入される低次元制御信号であることを示す。
この結果から,学習した制御信号を用いた連続深度ダイナミクスが,ステアブル言語生成に有効かつ効率的なメカニズムを提供することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a hybrid transformer architecture that replaces discrete middle layers with a continuous-depth Neural Ordinary Differential Equation (ODE) block, enabling inference-time control over generation attributes via a learned steering signal. Unlike standard transformers that process representations through fixed discrete layers, our approach treats depth as a continuous variable governed by a learned vector field $F_θ(H, τ, u)$, where $u$ is a low-dimensional control signal injected via explicit concatenation. We validate the architecture through four experiments: (1) gradient flow stability with zero exploding/vanishing gradient events, (2) semantic steering achieving 98\%/88\% accuracy for positive/negative sentiment control, (3) continuous interpolation validated by a negligible 0.068\% trajectory divergence between fixed and adaptive solvers, and (4) efficiency benchmarking demonstrating latency parity with standard discrete baselines. Additionally, we show that adaptive ODE solvers reveal geometric structure in the learned dynamics: the control signal partitions the vector field into distinct dynamical regimes with different curvature characteristics. The adjoint method enables $O(1)$ memory training regardless of integration depth. Our results demonstrate that continuous-depth dynamics with learned control signals provide a viable, efficient mechanism for steerable language generation.
- Abstract(参考訳): 本稿では,離散中層を連続深度ニューラル正規微分方程式(ODE)ブロックに置き換えるハイブリッドトランスフォーマーアーキテクチャを提案する。
固定された離散層を通して表現を処理する標準的な変換器とは異なり、我々の手法は深度を学習ベクトル場$F_θ(H, τ, u)$で支配される連続変数として扱う。
本研究は,(1)ゼロ爆発/消滅の勾配イベントによる勾配流の安定性,(2)正負の感情制御における98.%/88.%の精度を達成するセマンティックステアリング,(3)固定解と適応解の軌道偏差を無視できる0.068.%の連続補間,(4)標準離散基底線による遅延遅延パリティの効率ベンチマーク,の4つの実験を通してアーキテクチャを検証した。
制御信号はベクトル場を異なる曲率特性を持つ異なる力学系に分割する。
随伴法は統合深度に関係なく$O(1)$のメモリトレーニングを可能にする。
この結果から,学習した制御信号を用いた連続深度ダイナミクスが,ステアブル言語生成に有効かつ効率的なメカニズムを提供することが示された。
関連論文リスト
- Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。
我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。
この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文 参考訳(メタデータ) (2026-01-01T18:11:38Z) - Flexible Gravitational-Wave Parameter Estimation with Transformers [73.44614054040267]
本稿では,予測時間における多様な解析設定への適応を可能にする,フレキシブルトランスフォーマーベースのアーキテクチャをトレーニング戦略と組み合わせて導入する。
我々は、Dingo-T1と呼ばれる単一のフレキシブルモデルが、第3のLIGO-Virgo-KAGRA観測ランから48の重力波イベントを解析できることを実証した。
論文 参考訳(メタデータ) (2025-12-02T17:49:08Z) - Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks [3.924071936547547]
ゲーテッドニューラルネットワーク(RNN)は、適応的な学習速度の振る舞いを暗黙的に誘発する。
効果は状態空間の時間スケールとパラメータ空間のダイナミクスの結合から生じる。
経験的シミュレーションはこれらの主張を裏付ける。
論文 参考訳(メタデータ) (2025-08-16T18:19:34Z) - DDOT: A Derivative-directed Dual-decoder Ordinary Differential Equation Transformer for Dynamic System Modeling [16.33495160112142]
本稿では,多次元ODEをシンボル形式で再構成するトランスフォーマーモデルであるDDOTを紹介する。
ODEのデリバティブを予測する補助タスクを組み込むことで、DDOTは構造と動的挙動の両方を効果的にキャプチャする。
DDOTは既存のシンボリック回帰法よりも優れており、復元とタスクの一般化のために$P(R2 > 0.9)$で4.58%と1.62%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-23T11:24:52Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - KEEC: Koopman Embedded Equivariant Control [29.738391644702947]
未知の非線形力学を持つシステムを制御する効率的な方法は、適切な埋め込みや表現を見つけることである。
Koopman Embedded Equivariant Control (KEEC) は、クープマン作用素が潜在力学として近似されるような状態とベクトル場の埋め込みを学習する。
本アルゴリズムは,様々な制御領域で実施した実験において,優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-04T00:11:27Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Control of Stochastic Quantum Dynamics with Differentiable Programming [0.0]
微分可能プログラミングに基づく制御スキームの自動設計のためのフレームワークを提案する。
このアプローチを、ホモジエン検出を受けるクビットの状態準備と安定化に適用する。
その結果、信号と雑音の比が低いにもかかわらず、平均忠実度が約85%の目標状態へのキュービットの準備と安定化をコントローラに教えることができる。
論文 参考訳(メタデータ) (2021-01-04T19:00:03Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。