論文の概要: A Constrained Optimization Perspective of Unrolled Transformers
- arxiv url: http://arxiv.org/abs/2601.17257v1
- Date: Sat, 24 Jan 2026 02:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.437726
- Title: A Constrained Optimization Perspective of Unrolled Transformers
- Title(参考訳): アンロール変換器の制約付き最適化
- Authors: Javier Porras-Valenzuela, Samar Hadou, Alejandro Ribeiro,
- Abstract要約: 我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
- 参考スコア(独自算出の注目度): 77.12297732942095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a constrained optimization framework for training transformers that behave like optimization descent algorithms. Specifically, we enforce layerwise descent constraints on the objective function and replace standard empirical risk minimization (ERM) with a primal-dual training scheme. This approach yields models whose intermediate representations decrease the loss monotonically in expectation across layers. We apply our method to both unrolled transformer architectures and conventional pretrained transformers on tasks of video denoising and text classification. Across these settings, we observe constrained transformers achieve stronger robustness to perturbations and maintain higher out-of-distribution generalization, while preserving in-distribution performance.
- Abstract(参考訳): 我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
具体的には、目的関数に階層的な降下制約を課し、標準的経験的リスク最小化(ERM)を原始的双対トレーニングスキームに置き換える。
このアプローチは、中間表現が層間における損失を単調に減少させるモデルを生成する。
本手法は,ビデオデノゲーションとテキスト分類のタスクに対して,アンロールトランスフォーマアーキテクチャと従来の事前学習トランスフォーマの両方に適用する。
これらの設定の中で, 拘束型変圧器は摂動に対する強い強靭性を実現し, 分布内性能を維持しつつ, 分布外一般化を高く維持する。
関連論文リスト
- OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。
最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文 参考訳(メタデータ) (2025-01-30T22:52:40Z) - Transformers Handle Endogeneity in In-Context Linear Regression [34.458004744956334]
インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることを示す。
提案手法では,事前学習損失の最小化が最小限の余剰損失を達成できることを示す理論的保証を提供する。
論文 参考訳(メタデータ) (2024-10-02T06:21:04Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Optimizing a Transformer-based network for a deep learning seismic
processing workflow [0.0]
StorSeismicは、様々な地震処理タスクに対応するためにTransformerをベースとした最近導入されたモデルである。
微調整作業における事前学習と競争の速さを観察し,バニラモデルと比較してトレーニングすべきパラメータを少なくする。
論文 参考訳(メタデータ) (2023-08-09T07:11:42Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。