論文の概要: Cross-Entropy Games and Frost Training
- arxiv url: http://arxiv.org/abs/2605.27701v1
- Date: Tue, 26 May 2026 21:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.530324
- Title: Cross-Entropy Games and Frost Training
- Title(参考訳): クロスエントロピーゲームとフロストトレーニング
- Authors: Arthur Renard, Franck Gabriel, Valentin Hartmann, Clément Hongler,
- Abstract要約: モンテカルロを基盤とした政策最適化手法であるフロストトレーニングを提案する。
鍵となる考え方は、埋め込み空間における報酬関数の勾配を利用することである。
モデルトレーニングの強化にも使用できることを、私たちは初めて示しています。
- 参考スコア(独自算出の注目度): 4.2236769229063205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Frost Training, a method for improving Monte Carlo-based policy optimization for a large family of LLM-as-a-judge tasks called Cross-Entropy Games. The key idea is to exploit the gradient of the reward function in embedding space. This signal is used in the Greedy Coordinate Gradient (GCG) jailbreaking technique; we demonstrate for the first time that it can also be used to boost model training. We validate our method using GRPO training for maximum-likelihood infilling. Frost Training improves the model's ability to generate high-scoring outputs, reaching higher maximum scores in a best-of-k setting, and does so at an increased speed.
- Abstract(参考訳): クロスエントロピーゲーム(Cross-Entropy Games)と呼ばれるLLM-as-a-judgeタスクの大規模なファミリーに対して,モンテカルロに基づく政策最適化を改善する手法であるフロストトレーニング(Frost Training)を提案する。
鍵となる考え方は、埋め込み空間における報酬関数の勾配を利用することである。
この信号は、Greedy Coordinate Gradient (GCG) jailbreaking(英語版)技術で使用される。
GRPOトレーニングによる最大充填量の評価を行った。
フロストトレーニングは、高いスコアの出力を生成するモデルの能力を改善し、最高のK設定でより高いスコアを達成し、より高速でそれを行う。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。
モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。
特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文 参考訳(メタデータ) (2025-07-24T01:09:25Z) - Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint? [40.94505326255136]
低ランクトレーニングは、大規模言語モデルのトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
本研究では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
FiraはLoRAとGaLoreのどちらよりも優れており、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T14:58:27Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - Model-free Policy Learning with Reward Gradients [9.847875182113137]
モデルを学ぶことなく報酬勾配を統合する新しいアプローチであるtextitReward Policy Gradient estimator を開発した。
また,様々な MuJoCo 制御タスクにおける近似ポリシ最適化の性能も向上する。
論文 参考訳(メタデータ) (2021-03-09T00:14:13Z) - In-Loop Meta-Learning with Gradient-Alignment Reward [34.1954698584925]
本稿では,GAR(グラデーション・アライメント・アライメント・アワード)という,低コストで計算可能なメモリ節約報酬を提案する。
まず、複数のデータセットを分割した混合データとして、GARを用いてデータ分布を選択する。
第2に,CIFAR-10とCIFAR-100の最先端の強化戦略と競合する学習増強戦略の導出に成功していることを示す。
論文 参考訳(メタデータ) (2021-02-05T16:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。