論文の概要: KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2504.19024v1
- Date: Sat, 26 Apr 2025 21:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.095093
- Title: KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation
- Title(参考訳): KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation
- Authors: Jiabin Fan, Guoqing Luo, Michael Bowling, Lili Mou,
- Abstract要約: 強化学習(RL)に基づく知識蒸留(KD)のための新しいKステップ回帰推定法(KETCHUP)を提案する。
我々の考えは、複数のステップに対してベルマン最適性方程式を用いてKステップの戻りを誘導することである。
- 参考スコア(独自算出の注目度): 27.253008628739554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel k-step return estimation method (called KETCHUP) for Reinforcement Learning(RL)-based knowledge distillation (KD) in text generation tasks. Our idea is to induce a K-step return by using the Bellman Optimality Equation for multiple steps. Theoretical analysis shows that this K-step formulation reduces the variance of the gradient estimates, thus leading to improved RL optimization especially when the student model size is large. Empirical evaluation on three text generation tasks demonstrates that our approach yields superior performance in both standard task metrics and large language model (LLM)-based evaluation. These results suggest that our K-step return induction offers a promising direction for enhancing RL-based KD in LLM research.
- Abstract(参考訳): テキスト生成タスクにおける強化学習(RL)に基づく知識蒸留(KD)のための新しいkステップ回帰推定法(KETCHUP)を提案する。
我々の考えは、複数のステップに対してベルマン最適性方程式を用いてKステップの戻りを誘導することである。
理論的解析により、このK段階の定式化は勾配推定のばらつきを減少させ、特に学生モデルのサイズが大きい場合、RL最適化を改善することが示されている。
3つのテキスト生成タスクに対する経験的評価は、我々の手法が標準タスクメトリクスと大規模言語モデル(LLM)に基づく評価の両方において優れた性能をもたらすことを示す。
以上の結果から,我々のKステップ回帰誘導は,LLM研究におけるRLベースのKD向上に有望な方向性をもたらすことが示唆された。
関連論文リスト
- Offline Reinforcement Learning via Inverse Optimization [3.0586855806896054]
連続状態と行動空間のための新しいオフライン強化学習(ORL)アルゴリズムを提案する。
ORL問題でよく見られる分布変化を緩和するために、我々は頑健で非因果予測制御の専門家を用いる。
既存の文献と異なり、当社の堅牢なMPC専門家は、正確かつトラクタブルな凸修正を楽しみます。
論文 参考訳(メタデータ) (2025-02-27T12:11:44Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Variance Control for Distributional Reinforcement Learning [22.407803118899512]
我々は,新しい推定器であるemphQuantiled Expansion Mean(QEM)を構築し,統計的観点から新しいDRLアルゴリズム(QEMRL)を導入する。
我々は,Atari と Mujoco のベンチマークタスクに対して,QEMRL アルゴリズムを広範囲に評価した。
論文 参考訳(メタデータ) (2023-07-30T07:25:18Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Unbiased Gradient Estimation for Distributionally Robust Learning [2.1777837784979277]
分散的に堅牢な学習(DRL)に基づく新しいアプローチを検討し、内部問題に勾配降下を適用します。
本アルゴリズムはマルチレベルモンテカルロランダム化により勾配勾配を効率的に推定する。
論文 参考訳(メタデータ) (2020-12-22T21:35:03Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Kernel-based L_2-Boosting with Structure Constraints [25.288986409497443]
我々はカーネルベース再スケールブースティングと呼ばれるカーネルベースの学習アルゴリズムを提案し、KReBooTと呼ぶ。
提案したKReBooTは, 推定器の構造を制御し, スパース推定を行い, ほぼオーバーフィッティング耐性を有する。
論文 参考訳(メタデータ) (2020-09-16T08:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。