論文の概要: MiniGPT: Rebuilding GPT from First Principles
- arxiv url: http://arxiv.org/abs/2605.17398v1
- Date: Sun, 17 May 2026 11:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.994196
- Title: MiniGPT: Rebuilding GPT from First Principles
- Title(参考訳): MiniGPT: GPTを第一原理から再構築する
- Authors: Jibin Joseph,
- Abstract要約: MiniGPTは、PyTorchにおけるGPTスタイルの自動回帰言語モデリングのコンパクトなオフスクラッチ実装である。
本稿では,文字レベルのトークン化を用いたTiny Shakespeareデータセットの実装について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents MiniGPT, a compact from-scratch implementation of GPT-style autoregressive language modeling in PyTorch. The aim is to rebuild the core GPT pipeline from first principles after studying the design of nanoGPT by Andrej Karpathy, while keeping the model and training code independently written in a single notebook. MiniGPT implements token and positional embeddings, causal multi-head self-attention, pre-LayerNorm Transformer blocks, residual connections, feed-forward MLP layers, next-token cross-entropy training (teacher forcing), validation tracking, checkpoint selection, and autoregressive text generation. This paper evaluates the implementation on Tiny Shakespeare dataset using character-level tokenization. A baseline 0.83M-parameter model reaches a validation loss of 1.7236 after 3000 training iterations. A stronger 10.77M-parameter configuration, using a larger context length and improved training settings, reaches a best validation loss of 1.4780 and generates text with recognizable Shakespeare-style dialogue structure. MiniGPT does not introduce a new language-model architecture. Instead, it documents a clear and reproducible implementation path from raw text to trained character-level generation, including design choices, training behavior, generation quality, and practical limitations.
- Abstract(参考訳): 本稿では,PyTorch における GPT スタイルの自己回帰言語モデリングをコンパクトに実装した MiniGPT を提案する。
Andrej Karpathy氏によるnanoGPTの設計を研究した結果、コアGPTパイプラインを第一原則から再構築し、モデルとトレーニングコードを1つのノートブックに独立して保持することを目的としている。
MiniGPTはトークンと位置埋め込み、因果的マルチヘッド自己アテンション、プレレイアノームトランスフォーマーブロック、残余接続、フィードフォワードMLP層、次世代クロスエントロピートレーニング(Teacher Forcing)、バリデーショントラッキング、チェックポイント選択、自動回帰テキスト生成を実装している。
本稿では,文字レベルのトークン化を用いたTiny Shakespeareデータセットの実装について検討する。
ベースライン0.83Mパラメータモデルは、3000回のトレーニングを繰り返した後、検証損失が1.7236に達した。
より強力な10.77Mパラメータ構成は、より大きなコンテキスト長とより良いトレーニング設定を使用して、最高の検証損失1.4780に達し、認識可能なシェークスピアスタイルの対話構造を持つテキストを生成する。
MiniGPTは新しい言語モデルアーキテクチャを導入していない。
代わりに、原文から訓練された文字レベル生成までの明確で再現可能な実装パスを文書化する。
関連論文リスト
- PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - Text to Band Gap: Pre-trained Language Models as Encoders for Semiconductor Band Gap Prediction [9.325818199739759]
本稿では,半導体材料のバンドギャップを予測するために,RoBERTa,T5,Llama-3,MatSciBERTなどのトランスフォーマーベース言語モデルについて検討する。
入力は、化学組成、結晶系、空間群、その他の構造的および電子的性質などの重要な材料特性を符号化する。
論文 参考訳(メタデータ) (2025-01-07T00:56:26Z) - MorphPiece : A Linguistic Tokenizer for Large Language Models [3.8073142980733]
基礎となるテキストの形態的セグメンテーションにもとづく言語的に動機付けられたトークン化スキームであるMorphPieceを提案する。
このトークン化器(MorphGPTと呼ばれる)で訓練されたGPTスタイルの因果言語モデルは、様々な教師付きおよび教師なしのNLPタスクにおいて同等または優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-07-14T10:35:04Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - STEVE-1: A Generative Model for Text-to-Behavior in Minecraft [33.61199933424145]
本研究は,命令ラベル付き軌道の大規模なデータセットに頼ることなく,行動生成モデルを生成する手法を提案する。
STEVE-1と呼ばれる命令調整型ビデオ事前訓練(VPT)モデルを作成し、マインクラフトで短時間のオープンエンドテキストとビジュアルインストラクションを追跡できる。
論文 参考訳(メタデータ) (2023-06-01T17:39:41Z) - PIP: Parse-Instructed Prefix for Syntactically Controlled Paraphrase
Generation [61.05254852400895]
Parse-Instructed Prefix (PIP) は、大規模な事前学習言語モデルをチューニングするためのプレフィックスチューニングの新しい適応である。
このタスクの従来の微調整手法とは対照的に、PIPは学習可能なパラメータの10倍少ない計算効率の代替手段である。
論文 参考訳(メタデータ) (2023-05-26T07:42:38Z) - Shall We Pretrain Autoregressive Language Models with Retrieval? A
Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。
本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文 参考訳(メタデータ) (2023-04-13T18:04:19Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。