論文の概要: Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models
- arxiv url: http://arxiv.org/abs/2603.12248v1
- Date: Thu, 12 Mar 2026 17:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.287667
- Title: Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models
- Title(参考訳): Tokensではなくマッチング機能: 言語モデルのエネルギーベースファインチューニング
- Authors: Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich,
- Abstract要約: クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
- 参考スコア(独自算出の注目度): 102.20309135516186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-entropy (CE) training provides dense and scalable supervision for language models, but it optimizes next-token prediction under teacher forcing rather than sequence-level behavior under model rollouts. We introduce a feature-matching objective for language-model fine-tuning that targets sequence-level statistics of the completion distribution, providing dense semantic feedback without requiring a task-specific verifier or preference model. To optimize this objective efficiently, we propose energy-based fine-tuning (EBFT), which uses strided block-parallel sampling to generate multiple rollouts from nested prefixes concurrently, batches feature extraction over these rollouts, and uses the resulting embeddings to perform an on-policy policy-gradient update. We present a theoretical perspective connecting EBFT to KL-regularized feature-matching and energy-based modeling. Empirically, across Q&A coding, unstructured coding, and translation, EBFT matches RLVR and outperforms SFT on downstream accuracy while achieving a lower validation cross-entropy than both methods.
- Abstract(参考訳): クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供するが、モデルロールアウト時のシーケンスレベルの振る舞いよりも、教師の強制下での次トーケン予測を最適化する。
本稿では,言語モデルファインタニングのための特徴マッチングの目的について紹介する。これは完了分布のシーケンスレベル統計を目標とし,タスク固有の検証や嗜好モデルを必要としない,密集した意味フィードバックを提供する。
この目的を効率的に最適化するために、ネストしたプレフィックスから複数のロールアウトを同時に生成するためにストリップされたブロック並列サンプリング(EBFT)を用い、これらのロールアウトに対して特徴抽出をバッチ化し、その結果の埋め込みを用いて、ポリシの段階的更新を行うエネルギーベースファインチューニング(EBFT)を提案する。
本稿では,EBFT と KL-正規化特徴マッチングとエネルギーベースモデリングを結合する理論的視点を提案する。
実証的には、Q&Aコーディング、非構造化コーディング、翻訳の間、EBFTはRLVRと一致し、下流の精度でSFTを上回り、どちらの方法よりも低い検証エントロピーを達成する。
関連論文リスト
- Reinforced Fast Weights with Next-Sequence Prediction [42.710296902935426]
REFINEは、次のシーケンス予測(NSP)目標の下で高速ウェイトモデルをトレーニングする強化学習フレームワークである。
REFINEは、ニードル・イン・ア・ヘイスタック検索、長文質問応答、LongBenchにおける多様なタスクにおいて、NTPによる微調整を監督している。
論文 参考訳(メタデータ) (2026-02-18T18:53:18Z) - Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction [41.53271688465831]
ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
論文 参考訳(メタデータ) (2025-11-01T12:16:24Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。