論文の概要: NRGPT: An Energy-based Alternative for GPT
- arxiv url: http://arxiv.org/abs/2512.16762v1
- Date: Thu, 18 Dec 2025 16:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.168226
- Title: NRGPT: An Energy-based Alternative for GPT
- Title(参考訳): NRGPT:GPTの代替エネルギー
- Authors: Nima Dehmamy, Benjamin Hoover, Bishwajit Saha, Leo Kozachkov, Jean-Jacques Slotine, Dmitry Krotov,
- Abstract要約: エネルギーに基づくモデリングは、推論をエネルギーランドスケープで動作する動的プロセスと見なす異なるパラダイムである。
EBMフレームワークと統合するために,GPT設定の最小限の変更を提案する。
我々のモデルは、単純な言語(Shakespeareデータセット)、代数的なListOPSタスク、OpenWebText言語モデリングのようなよりリッチな設定でうまく機能することを示す。
- 参考スコア(独自算出の注目度): 14.661803594288024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Pre-trained Transformer (GPT) architectures are the most popular design for language modeling. Energy-based modeling is a different paradigm that views inference as a dynamical process operating on an energy landscape. We propose a minimal modification of the GPT setting to unify it with the EBM framework. The inference step of our model, which we call eNeRgy-GPT (NRGPT), is conceptualized as an exploration of the tokens on the energy landscape. We prove, and verify empirically, that under certain circumstances this exploration becomes gradient descent, although they don't necessarily lead to the best performing models. We demonstrate that our model performs well for simple language (Shakespeare dataset), algebraic ListOPS tasks, and richer settings such as OpenWebText language modeling. We also observe that our models may be more resistant to overfitting, doing so only during very long training.
- Abstract(参考訳): Generative Pre-trained Transformer (GPT) アーキテクチャは、言語モデリングにおける最も一般的な設計である。
エネルギーに基づくモデリングは、推論をエネルギーランドスケープで動作する動的プロセスと見なす異なるパラダイムである。
EBMフレームワークと統合するために,GPT設定の最小限の変更を提案する。
eNeRgy-GPT(NRGPT)と呼ばれるモデルの推論ステップは、エネルギーランドスケープ上のトークンの探索として概念化されている。
我々は、ある状況下でこの探索が勾配降下となることを実証し、実証的に検証するが、必ずしも最高の性能モデルにつながるとは限らない。
我々のモデルは、単純な言語(Shakespeareデータセット)、代数的なListOPSタスク、OpenWebText言語モデリングのようなよりリッチな設定でうまく機能することを示す。
また、我々のモデルは過度な適合に抵抗する可能性があり、非常に長いトレーニングの間だけ行います。
関連論文リスト
- Towards EnergyGPT: A Large Language Model Specialized for the Energy Sector [0.0]
本稿では,エネルギー分野に適したドメイン特化言語モデルであるEnergyGPTを紹介する。
データ収集とキュレーションを含む、完全な開発パイプラインを提示します。
当社のトレーニング戦略は,大規模なインフラストラクチャを必要とせずに,ドメインの関連性やパフォーマンスの向上を可能にすることを実証しています。
論文 参考訳(メタデータ) (2025-09-08T19:48:52Z) - Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling [80.30976039119236]
Lumina-mGPT 2.0はスタンドアロンのデコーダのみの自己回帰モデルである。
完全にスクラッチからトレーニングされ、制限のないアーキテクチャ設計とライセンスの自由を可能にする。
それは最先端の拡散モデルと同等に生成品質を達成する。
論文 参考訳(メタデータ) (2025-07-23T17:42:13Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。
本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-14T18:51:22Z) - Versatile Energy-Based Probabilistic Models for High Energy Physics [0.0]
大型ハドロン衝突型加速器における高エネルギー物理事象に対する多目的エネルギーベース確率モデルを構築した。
このフレームワークは強力な生成モデルの上に構築され、高次粒子間相互作用を記述する。
論文 参考訳(メタデータ) (2023-02-01T19:00:10Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。