論文の概要: Energy-Based Transformers are Scalable Learners and Thinkers
- arxiv url: http://arxiv.org/abs/2507.02092v1
- Date: Wed, 02 Jul 2025 19:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.092967
- Title: Energy-Based Transformers are Scalable Learners and Thinkers
- Title(参考訳): エネルギーベースのトランスフォーマーはスケーラブルな学習者と思考者である
- Authors: Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Peixuan Han, Hyeonjeong Ha, Aman Chadha, Yilun Du, Heng Ji, Jundong Li, Tariq Iqbal,
- Abstract要約: エネルギーベーストランス (EBTs) はエネルギーベースモデル (EBMs) の新しいクラスである
入力と予測ペア毎にエネルギー値を割り当てるようにEBTを訓練し、収束するまで勾配降下に基づくエネルギーによる予測を可能にする。
推論中、EBTはSystem 2 Thinkingで言語タスクにおけるTransformer++よりも29%パフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 84.7474634026213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time computation techniques, analogous to human System 2 Thinking, have recently become popular for improving model performances. However, most existing approaches suffer from several limitations: they are modality-specific (e.g., working only in text), problem-specific (e.g., verifiable domains like math and coding), or require additional supervision/training on top of unsupervised pretraining (e.g., verifiers or verifiable rewards). In this paper, we ask the question "Is it possible to generalize these System 2 Thinking approaches, and develop models that learn to think solely from unsupervised learning?" Interestingly, we find the answer is yes, by learning to explicitly verify the compatibility between inputs and candidate-predictions, and then re-framing prediction problems as optimization with respect to this verifier. Specifically, we train Energy-Based Transformers (EBTs) -- a new class of Energy-Based Models (EBMs) -- to assign an energy value to every input and candidate-prediction pair, enabling predictions through gradient descent-based energy minimization until convergence. Across both discrete (text) and continuous (visual) modalities, we find EBTs scale faster than the dominant Transformer++ approach during training, achieving an up to 35% higher scaling rate with respect to data, batch size, parameters, FLOPs, and depth. During inference, EBTs improve performance with System 2 Thinking by 29% more than the Transformer++ on language tasks, and EBTs outperform Diffusion Transformers on image denoising while using fewer forward passes. Further, we find that EBTs achieve better results than existing models on most downstream tasks given the same or worse pretraining performance, suggesting that EBTs generalize better than existing approaches. Consequently, EBTs are a promising new paradigm for scaling both the learning and thinking capabilities of models.
- Abstract(参考訳): 近年,人間のシステム2思考に類似した推論時間計算技術が,モデルの性能向上に人気を博している。
しかし、既存のアプローチのほとんどは、モダリティに特化している(例:テキストでのみ動作する)、問題に特有である(例:数学やコーディングのような検証可能なドメイン)、あるいは教師なし事前学習(例:検証者または検証可能な報酬)の上に追加の監督と訓練を必要とする(例:検証者または検証可能な報酬)。
本稿では,「これらのシステム2思考アプローチを一般化し,教師なし学習のみから思考を学習するモデルを開発することは可能か?」という問いを投げかける。
興味深いことに、この答えはイエスであり、入力と候補予測の互換性を明示的に検証し、この検証について予測問題を最適化として再フレーミングすることで得られる。
具体的には、エネルギーベーストランスフォーマー(EBT)、すなわち新しいエネルギーベースモデル(EBM)を訓練し、入力と予測のペアごとにエネルギー値を割り当て、収束まで勾配降下に基づくエネルギー最小化による予測を可能にする。
データ、バッチサイズ、パラメータ、FLOP、深さに関して、最大で35%のスケーリング率を達成することができる。
推論中、EBTはSystem 2 Thinkingで、言語タスクにおけるTransformer++よりも29%向上し、EBTは、フォワードパスを減らしながら画像のデノーミングにおいてDiffusion Transformerより優れていた。
さらに,ETTが既存モデルよりも,同じあるいは悪い事前学習性能を与えられた場合や,既存モデルよりも優れた結果が得られることが示唆された。
結果として、EBTはモデルの学習能力と思考能力の両方をスケーリングするための、有望な新しいパラダイムである。
関連論文リスト
- BEExformer: A Fast Inferencing Transformer Architecture via Binarization with Multiple Early Exits [2.7651063843287718]
トランスフォーマーに基づく大規模言語モデル(LLM)は、様々なアプリケーションで最先端の結果を得る。
様々な効率の考慮事項の中で、モデルバイナライゼーションとEarly Exit(EE)は一般的な有効解である。
本稿では,最初の選択型学習変圧器アーキテクチャであるBinarized Early Exit Transformer (BEExformer)を提案する。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials [27.573329030086676]
本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-14T13:42:57Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。