論文の概要: Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding
- arxiv url: http://arxiv.org/abs/2606.03080v1
- Date: Tue, 02 Jun 2026 03:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.720226
- Title: Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding
- Title(参考訳): レグレト事前学習:知識基盤強化のための事前学習と後見
- Authors: Mingkuan Zhao, Xiayu Sun, Wentao Hu, Suquan Chen, Jiaxuan Li, Xiaoyan Zhu, Xin Lai, Jiayin Wang,
- Abstract要約: 因果言語モデルは、事前コンテキストのみを使用してシーケンス確率を分解し、トレーニング中に将来の情報が明らかにされない。
本稿では,Learning Using Privileged Information (LUPI)パラダイムに基づく自己教師型フレームワークであるRegret Pre-trainingを紹介する。
- 参考スコア(独自算出の注目度): 13.566038176107703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal language models factorize sequence probabilities using only preceding context, leaving future information unexploited during training despite its availability in the training data. This paper introduces Regret Pre-training, a self-supervised framework grounded in the Learning Using Privileged Information (LUPI) paradigm. The framework employs a dual-view architecture in which a single model generates both a causal Student distribution and a future-conditioned Teacher distribution. The training objective augments standard language modeling with a regret loss that minimizes the KL divergence from teacher to student, transferring future-aware signals to the causal representations. We investigate two teacher configurations on the OLMoE-1B-7B architecture:LocalRegret, which extends attention by one future token, andGlobalRegret, which conditions on bidirectional context with the target position masked. Experiments on nine downstream tasks following 4 billion tokens of training demonstrate that both configurations consistently outperform the baseline. On average,GlobalRegret andLocalRegret achieve 33.9% and 32.2% accuracy respectively, surpassing the baseline's 30.2%. Most notably,GlobalRegret improves BoolQ performance by 18.1 percentage points (61.0% vs 42.9%). The framework introduces no additional parameters and requires only one extra inference-mode forward pass per training step.
- Abstract(参考訳): 因果言語モデルは、事前コンテキストのみを使用してシーケンス確率を分解し、トレーニングデータで利用可能であるにもかかわらず、トレーニング中に将来の情報が明らかにされていない。
本稿では,Learning Using Privileged Information (LUPI)パラダイムに基づく自己教師型フレームワークであるRegret Pre-trainingを紹介する。
このフレームワークは、単一モデルが因果的学生分布と将来の条件付き教員分布の両方を生成するデュアルビューアーキテクチャを採用している。
学習目的は、教師から生徒へのKLのばらつきを最小限に抑えつつ、標準言語モデリングを強化し、将来の認識信号を因果表現に伝達する。
本稿では,OLMoE-1B-7Bアーキテクチャの2つの教師構成について検討する。LocalRegret,GlobalRegret,GlobalRegret。
40億のトレーニングトークンに続く9つの下流タスクの実験は、両方の設定がベースラインを一貫して上回ることを示した。
平均して、GlobalRegretとLocalRegretはそれぞれ33.9%、32.2%の精度でベースラインの30.2%を上回っている。
最も注目すべきは、GlobalRegretはBoolQのパフォーマンスを18.1ポイント改善する(61.0%対42.9%)。
このフレームワークは追加のパラメータを導入せず、トレーニングステップ毎に1つの追加の推論モードフォワードパスしか必要としない。
関連論文リスト
- Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training [28.00739954235118]
そこで本研究では,モデルにおけるアクティブな学習フロンティアに焦点をあてた,理論的基盤を持つ完全オンラインデータ選択フレームワークを提案する。
リプレイ付きフォワードプルーナーは、永続的に解決されたプロンプトのロールアウト生成をスキップすることで、ウォールクロック時間コストをさらに低減する。
我々の方法は1ステップあたりのトレーニングデータの40%しか保持しないが、完全なデータベースラインにマッチまたは超えている。
論文 参考訳(メタデータ) (2026-05-16T14:01:12Z) - Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO [24.91321958525287]
大規模言語モデルからコンパクトな学生モデルへ推論するCoT(Chain-of-Thought)の蒸留は、根本的な課題である。
既存のアプローチでは、推論を単一ステップに圧縮するか、CoTを価値あるものにする解釈性を失う。
本稿では,この能力のミスマッチに対処する3段階のカリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T05:27:11Z) - One Model for All: Universal Pre-training for EEG based Emotion Recognition across Heterogeneous Datasets and Paradigms [9.873322204941394]
One Model for All"は、異なるデータセット間でのEEG分析のための普遍的な事前トレーニングフレームワークである。
我々のフレームワークは、SEED (99.27%)、DEAP (93.69%)、DREAMER (93.93%)という、全てのオブジェクト内ベンチマークで新しいSOTA性能を実現する。
この研究は、多種多様な脳波分析タスクのための、より普遍的でスケーラブルで効果的な事前学習モデルの道を開いた。
論文 参考訳(メタデータ) (2025-11-11T16:46:45Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。