論文の概要: Intra-Layer Recurrence in Transformers for Language Modeling
- arxiv url: http://arxiv.org/abs/2505.01855v2
- Date: Fri, 23 May 2025 19:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.553114
- Title: Intra-Layer Recurrence in Transformers for Language Modeling
- Title(参考訳): 言語モデリングのための変圧器の層内再帰
- Authors: Anthony Nguyen, Wenjun Lin,
- Abstract要約: ILR(Intra-Layer Recurrence)は、単一のフォワードパス内の個々の層に選択的に反復するアプローチである。
実験により、より多くのイテレーションを以前のレイヤに割り当てると、最適な結果が得られます。
- 参考スコア(独自算出の注目度): 0.03320194947871346
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformer models have established new benchmarks in natural language processing; however, their increasing depth results in substantial growth in parameter counts. While existing recurrent transformer methods address this issue by reprocessing layers multiple times, they often apply recurrence indiscriminately across entire blocks of layers. In this work, we investigate Intra-Layer Recurrence (ILR), a more targeted approach that applies recurrence selectively to individual layers within a single forward pass. Our experiments show that allocating more iterations to earlier layers yields optimal results. These findings suggest that ILR offers a promising direction for optimizing recurrent structures in transformer architectures.
- Abstract(参考訳): トランスフォーマーモデルは、自然言語処理において新しいベンチマークを確立しているが、その深度の増加はパラメータ数を大幅に増加させる。
既存のリカレントトランスフォーマーメソッドは、何度もレイヤを再処理することでこの問題に対処するが、しばしばレイヤのブロック全体にわたって無差別に繰り返しを適用する。
本研究では,1つの前方パス内の個々の層に選択的に再帰を適用可能な,より標的としたILR(Intra-Layer Recurrence)について検討する。
我々の実験は、より多くのイテレーションを以前のレイヤに割り当てることが最適な結果をもたらすことを示している。
これらの結果から, ILRは変圧器アーキテクチャにおける再帰構造を最適化する上で有望な方向を示すことが示唆された。
関連論文リスト
- RingFormer: Rethinking Recurrent Transformer with Adaptive Level Signals [2.287772422489548]
本稿では,リング状に繰り返し入力を処理するトランスフォーマー層を1つ導入したリングホルダーを提案する。
これにより、翻訳や画像分類といった様々なタスクにおいて、高い性能を維持しながら、モデルパラメータを大幅に削減できる。
論文 参考訳(メタデータ) (2025-02-18T09:34:31Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Causal Transformers Perform Below Chance on Recursive Nested
Constructions, Unlike Humans [7.897143833642971]
2種類のネスト構造に対して4種類のトランスフォーマーLMを試験した。
トランスフォーマーは,短範囲の組み込み依存に対してほぼ完璧な性能を実現する。
長距離の組み込み依存関係では、Transformerのパフォーマンスは確率レベル以下に急落する。
論文 参考訳(メタデータ) (2021-10-14T09:22:17Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Deriving Differential Target Propagation from Iterating Approximate
Inverses [91.3755431537592]
本稿では,各層が学習した逆数に依存するターゲット伝搬の特定の形態が,ガウス-ニュートン勾配に基づく近似最適化に対応する更新規則を導出することを示す。
そこで我々は,各層における局所的自動エンコーダに基づく反復計算について検討し,より正確な目標伝搬のインバージョンを実現する。
論文 参考訳(メタデータ) (2020-07-29T22:34:45Z) - Learned Multi-layer Residual Sparsifying Transform Model for Low-dose CT
Reconstruction [11.470070927586017]
スパース変換学習は、高度に効率的なスパースコーディングとオペレータ更新ステップを含む。
本稿では,変換領域残基を層上で共分散したMRST学習モデルを提案する。
論文 参考訳(メタデータ) (2020-05-08T02:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。