論文の概要: AbbIE: Autoregressive Block-Based Iterative Encoder for Efficient Sequence Modeling
- arxiv url: http://arxiv.org/abs/2507.08567v2
- Date: Thu, 07 Aug 2025 11:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 23:24:00.913886
- Title: AbbIE: Autoregressive Block-Based Iterative Encoder for Efficient Sequence Modeling
- Title(参考訳): AbbIE:効率的なシーケンスモデリングのための自動回帰ブロックベース反復エンコーダ
- Authors: Preslav Aleksandrov, Meghdad Kurmanji, Fernando Garcia Redondo, David O'Shea, William Shen, Alex Iacob, Lorenzo Sani, Xinchi Qiu, Nicola Cancedda, Nicholas D. Lane,
- Abstract要約: 自己回帰的ブロックベース反復一般化は、標準変換器よりも難易度が高い。
AbbIEは遅延スペースでイテレーションを実行するが、遅延推論モデルとは異なり、特別なデータセットやトレーニングプロトコルを必要としない。
- 参考スコア(独自算出の注目度): 43.69519440553312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Autoregressive Block-Based Iterative Encoder (AbbIE), a novel recursive generalization of the encoder-only Transformer architecture, which achieves better perplexity than a standard Transformer and allows for the dynamic scaling of compute resources at test time. This simple, recursive approach is a complement to scaling large language model (LLM) performance through parameter and token counts. AbbIE performs its iterations in latent space, but unlike latent reasoning models, does not require a specialized dataset or training protocol. We show that AbbIE upward generalizes (ability to generalize to arbitrary iteration lengths) at test time by only using 2 iterations during train time, far outperforming alternative iterative methods. AbbIE's ability to scale its computational expenditure based on the complexity of the task gives it an up to \textbf{12\%} improvement in zero-shot in-context learning tasks versus other iterative and standard methods and up to 5\% improvement in language perplexity. The results from this study open a new avenue to Transformer performance scaling. We perform all of our evaluations on model sizes up to 350M parameters.
- Abstract(参考訳): 本稿では,エンコーダのみのトランスフォーマアーキテクチャの新たな再帰的一般化であるAutoregressive Block-Based Iterative Encoder (AbbIE)を導入し,標準的なトランスフォーマよりも複雑な処理を実現するとともに,テスト時の計算リソースの動的スケーリングを実現する。
この単純で再帰的なアプローチは、パラメータとトークン数による大規模言語モデル(LLM)のパフォーマンスのスケーリングを補完するものだ。
AbbIEは遅延スペースでイテレーションを実行するが、遅延推論モデルとは異なり、特別なデータセットやトレーニングプロトコルを必要としない。
AbbIEは、列車の時間帯に2つのイテレーションだけを用いることで、テスト時に上向きに一般化し(任意のイテレーション長に一般化できる)、代替反復法よりもはるかに優れていることを示す。
タスクの複雑さに基づいて計算支出をスケールするAbbIEの能力は、ゼロショットのインコンテキスト学習タスクにおいて、他の反復的および標準メソッドに対して最大5倍の言語難易度向上をもたらす。
本研究の結果は,Transformerパフォーマンススケーリングへの新たな道を開くものである。
最大350万のパラメータをモデルサイズで評価する。
関連論文リスト
- Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [50.001816497407475]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、KVペアを最初の再帰から再利用するKV共有変種を提案し、特にプリフィルレイテンシとメモリフットプリントの削減を図っている。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architectures for Auto-Regressive Language Modeling [2.9228447484533695]
Transformer アーキテクチャは自然言語処理分野に革命をもたらし、Large Language Models (LLM) のバックボーンとなっている。
Transformerアーキテクチャの課題の1つは、長いシーケンス長の効率的な処理を禁止する注意機構の二次的な複雑さである。
この点において重要な研究の1つは、計算の複雑さを減らしながら優れた性能を示したPerceiverクラスのアーキテクチャである。
論文 参考訳(メタデータ) (2024-12-08T23:41:38Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - SRFormer: Text Detection Transformer with Incorporated Segmentation and
Regression [6.74412860849373]
本稿では,アマルガメーションと回帰を併用した統合DTRモデルSRFormerを提案する。
実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。
提案手法の強靭性,優れたトレーニングとデータ効率,および最先端の性能について検討した。
論文 参考訳(メタデータ) (2023-08-21T07:34:31Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Hyperparameter optimization with REINFORCE and Transformers [2.1404235519012076]
強化学習はニューラルアーキテクチャサーチ(NAS)の有望な結果を得た
ポリシーネットワークをモデル化するために,単純化されたTransformerブロックを用いることで,その性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-01T13:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。