論文の概要: TPTT: Transforming Pretrained Transformer into Titans
- arxiv url: http://arxiv.org/abs/2506.17671v1
- Date: Sat, 21 Jun 2025 10:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.533586
- Title: TPTT: Transforming Pretrained Transformer into Titans
- Title(参考訳): TPTT:事前訓練された変圧器をタイタンに変換
- Authors: Fabien Furfaro,
- Abstract要約: TPTT(Transforming Pretrained Transformer into Titans)は、事前トレーニングされたトランスフォーマーモデルを強化するための新しいフレームワークである。
メモリ・アズ・ゲート(MaG)や混合線形アテンション(LiZA)などの技術を採用している。
約10億パラメータのモデルを用いたMMLUベンチマークにおけるTPTTの有効性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have led to remarkable progress in natural language processing, but their computational and memory demands remain a significant challenge, particularly for long-context inference. We introduce TPTT (Transforming Pretrained Transformer into Titans), a novel framework for enhancing pretrained Transformer models with efficient linearized attention mechanisms and advanced memory management. TPTT employs techniques such as Memory as Gate (MaG) and mixed linearized attention (LiZA). It is fully compatible with the Hugging Face Transformers library, enabling seamless adaptation of any causal LLM through parameter-efficient fine-tuning (LoRA) without full retraining. We show the effectiveness of TPTT on the MMLU benchmark with models of approximately 1 billion parameters, observing substantial improvements in both efficiency and accuracy. For instance, Titans-Llama-3.2-1B achieves a 20% increase in Exact Match (EM) over its baseline. Statistical analyses and comparisons with recent state-of-the-art methods confirm the practical scalability and robustness of TPTT. Code is available at https://github.com/fabienfrfr/tptt . Python package at https://pypi.org/project/tptt/ .
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、自然言語処理の顕著な進歩をもたらしたが、その計算とメモリ要求は、特に長文推論において重要な課題である。
本稿では,効率的な線形化アテンション機構と高度なメモリ管理を備えた事前学習トランスフォーマーモデルを構築するための新しいフレームワークであるTPTT(Transforming Pretrained Transformer into Titans)を紹介する。
TPTT は Memory as Gate (MaG) や Mixed linearized attention (LiZA) などの技術を採用している。
Hugging Face Transformersライブラリと完全に互換性があり、パラメータ効率の細かい調整(LoRA)を通じて任意の因果LLMをシームレスに適応できる。
約10億のパラメータのモデルを用いたMMLUベンチマークにおけるTPTTの有効性を示す。
例えば、Titans-Llama-3.2-1Bは、ベースライン上でのエクサクトマッチ(EM)を20%増加させる。
統計的解析と最近の最先端手法との比較により,TPTTの実用的スケーラビリティとロバスト性が確認されている。
コードはhttps://github.com/fabienfrfr/tptt.comで入手できる。
Pythonパッケージはhttps://pypi.org/project/tptt/。
関連論文リスト
- Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。
固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文 参考訳(メタデータ) (2024-12-13T05:33:32Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Mnemosyne: Learning to Train Transformers with Transformers [18.36543176998175]
Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。
Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
論文 参考訳(メタデータ) (2023-02-02T14:40:28Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。