論文の概要: Enhancing next token prediction based pre-training for jet foundation models
- arxiv url: http://arxiv.org/abs/2512.04149v1
- Date: Wed, 03 Dec 2025 19:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.816589
- Title: Enhancing next token prediction based pre-training for jet foundation models
- Title(参考訳): ジェット基礎モデルのための次のトークン予測に基づく事前訓練の強化
- Authors: Joschka Birk, Anna Hallin, Gregor Kasieczka, Nikol Madzharova, Ian Pang, David Shih,
- Abstract要約: 次のトークン予測はジェット基礎モデルのための魅力的な事前訓練タスクである。
シミュレーションフリーで、データセット間で転送可能な優れた生成機能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next token prediction is an attractive pre-training task for jet foundation models, in that it is simulation free and enables excellent generative capabilities that can transfer across datasets. Here we study multiple improvements to next token prediction, building on the initial work of OmniJet-$α$. Instead of tokenizing particles and subsequently only using the token-ID as the model input for both the generative and the classification task, we adopt a hybrid setup, which allows us to use continuous feature vectors as model input while only using token-IDs in the next token prediction target. Secondly, we explore a combined pre-training strategy that combines masked particle modeling and generative learning objectives. Taken together, these changes greatly improve the performance in downstream classification tasks without any loss in generative performance.
- Abstract(参考訳): 次のトークン予測は、ジェットファンデーションモデルのための魅力的な事前トレーニングタスクであり、シミュレーション自由であり、データセット間で転送可能な優れた生成機能を実現する。
ここでは、OmniJet-$α$の最初の作業に基づいて、次のトークン予測に対する複数の改善について検討する。
粒子をトークン化する代わりに、生成タスクと分類タスクの両方のモデル入力としてトークンIDのみを使用し、次のトークン予測ターゲットでトークンIDのみを使用しながら、連続特徴ベクトルをモデル入力として使用できるハイブリッド設定を採用する。
次に、マスク付き粒子モデリングと生成学習の目的を組み合わせた事前学習戦略について検討する。
まとめると、これらの変更は、生成的性能を損なうことなく、下流分類タスクのパフォーマンスを大幅に改善する。
関連論文リスト
- Quadratic Direct Forecast for Training Multi-Step Time-Series Forecast Models [88.18038107198218]
既存の訓練目的は主に、各将来のステップを独立して均等に重み付けされたタスクとして扱う。
本稿では,両課題を同時に解決する2次元重み付き学習目標を提案する。
実験の結果,QDFは様々な予測モデルの性能を効果的に向上することが示された。
論文 参考訳(メタデータ) (2025-10-28T14:48:25Z) - Text Generation Beyond Discrete Token Sampling [74.06071135207635]
入力の混合(Mixture of Inputs, MoI)は、自動回帰生成のためのトレーニング不要な方法である。
MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-20T18:41:46Z) - Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [45.745443096804586]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Is Tokenization Needed for Masked Particle Modelling? [8.79008927474707]
Masked Particle Modeling (MPM) は、無順序集合の表現表現を構築するための自己教師付き学習スキームである。
実装における非効率に対処し、より強力なデコーダを組み込むことにより、MPMを改善する。
これらの新しい手法は、ジェットの基礎モデルのための新しいテストベッドにおいて、オリジナルのMPMからのトークン化学習目標よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-19T09:12:29Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。