論文の概要: CoFrGeNet: Continued Fraction Architectures for Language Generation
- arxiv url: http://arxiv.org/abs/2601.21766v1
- Date: Thu, 29 Jan 2026 14:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.885131
- Title: CoFrGeNet: Continued Fraction Architectures for Language Generation
- Title(参考訳): CoFrGeNet: 言語生成のための継続的なフラクションアーキテクチャ
- Authors: Amit Dhurandhar, Vijil Chenthamarakshan, Dennis Wei, Tejaswini Pedapati, Karthikeyan Natesan Ramamurthy, Rahul Nair,
- Abstract要約: 連続分数にインスパイアされた生成モデリングのための新しい関数クラスを導入する。
トランスフォーマーブロックにおけるマルチヘッドアテンションとフィードフォワードネットワークを置き換えることができる,この関数クラスに基づく新しいアーキテクチャコンポーネントを設計する。
私たちのコンポーネントは、トレーニングや推論手順の変更をほとんど必要としないプラグイン代替物です。
- 参考スコア(独自算出の注目度): 36.20981075573288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are arguably the preferred architecture for language generation. In this paper, inspired by continued fractions, we introduce a new function class for generative modeling. The architecture family implementing this function class is named CoFrGeNets - Continued Fraction Generative Networks. We design novel architectural components based on this function class that can replace Multi-head Attention and Feed-Forward Networks in Transformer blocks while requiring much fewer parameters. We derive custom gradient formulations to optimize the proposed components more accurately and efficiently than using standard PyTorch-based gradients. Our components are a plug-in replacement requiring little change in training or inference procedures that have already been put in place for Transformer-based models thus making our approach easy to incorporate in large industrial workflows. We experiment on two very different transformer architectures GPT2-xl (1.5B) and Llama3 (3.2B), where the former we pre-train on OpenWebText and GneissWeb, while the latter we pre-train on the docling data mix which consists of nine different datasets. Results show that the performance on downstream classification, Q\& A, reasoning and text understanding tasks of our models is competitive and sometimes even superior to the original models with $\frac{2}{3}$ to $\frac{1}{2}$ the parameters and shorter pre-training time. We believe that future implementations customized to hardware will further bring out the true potential of our architectures.
- Abstract(参考訳): トランスフォーマーは間違いなく、言語生成に好まれるアーキテクチャである。
本稿では,連続分数にインスパイアされた生成モデルのための新しい関数クラスを提案する。
この関数クラスを実装するアーキテクチャファミリは、CoFrGeNets - Continued Fraction Generative Networksと呼ばれている。
トランスフォーマーブロックにおけるマルチヘッドアテンションとフィードフォワードネットワークを置き換えることができる関数クラスに基づく新しいアーキテクチャコンポーネントを設計し、パラメータをはるかに少なくする。
我々は、標準のPyTorch勾配よりも、提案した成分をより正確に効率的に最適化するためのカスタム勾配定式化を導出する。
当社のコンポーネントは,Transformerベースのモデルにすでに導入されているトレーニングや推論手順の変更をほとんど必要とせずに,プラグインの置き換えです。
GPT2-xl(1.5B)とLlama3(3.2B)という2つの非常に異なるトランスフォーマーアーキテクチャを実験し、前者はOpenWebTextとGneissWebで事前トレーニングを行い、後者は9つの異なるデータセットからなるドクリングデータミックスで事前トレーニングする。
その結果, 下流分類, Q\&A, 推論, テキスト理解タスクのパフォーマンスは競争力があり, 時として, パラメータが$\frac{2}{3}$から$\frac{1}{2}$$よりも優れ, 事前学習時間も短いことがわかった。
ハードウェアにカスタマイズされた将来の実装は、私たちのアーキテクチャの真の可能性をさらに引き出すだろうと信じています。
関連論文リスト
- Exploring Diffusion Transformer Designs via Grafting [82.91123758506876]
計算予算の少ない新しいアーキテクチャを実現するために,事前に訓練された拡散変換器(DiT)を編集する簡単な手法であるグラフト方式を提案する。
演算子置換からアーキテクチャ再構成に至るまで,事前訓練したDiTをグラフトすることで,新しい拡散モデルの設計を探索できることが示されている。
論文 参考訳(メタデータ) (2025-06-05T17:59:40Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z) - E.T.: Entity-Transformers. Coreference augmented Neural Language Model
for richer mention representations via Entity-Transformer blocks [3.42658286826597]
本稿では,ニューラルネットワークモデル,特にGPT2におけるTransformer-blockアーキテクチャの拡張について述べる。
我々のモデルであるGPT2Eは、GPT2のトランスフォーマー層アーキテクチャをEntity-Transformersに拡張しています。
論文 参考訳(メタデータ) (2020-11-10T22:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。