論文の概要: Rethinking Large Language Model Distillation: A Constrained Markov Decision Process Perspective
- arxiv url: http://arxiv.org/abs/2509.22921v1
- Date: Fri, 26 Sep 2025 20:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.9379
- Title: Rethinking Large Language Model Distillation: A Constrained Markov Decision Process Perspective
- Title(参考訳): 大規模言語モデル蒸留の再考:マルコフ決定過程の制約
- Authors: Matthieu Zimmer, Xiaotong Ji, Tu Nguyen, Haitham Bou Ammar,
- Abstract要約: 本稿では, 大規模言語モデル (LLM) の蒸留に制約付き強化学習問題として定式化することによって, 新たなアプローチを導入する。
本稿では,教師モデルからの逸脱を一定の閾値以下に抑えながら,タスク固有の報酬を最大化する最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.582247024726156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel approach to large language model (LLM) distillation by formulating it as a constrained reinforcement learning problem. While recent work has begun exploring the integration of task-specific rewards into distillation processes, existing methods typically rely on ad-hoc reward weighting. We propose a principled optimization framework that maximizes task-specific rewards while constraining the divergence from the teacher model to remain below a specified threshold. Our approach adapts constrained state augmented reinforcement learning to the distillation setting, introducing a modified reward function that maintains theoretical guarantees of constraint satisfaction without requiring state augmentation or teacher model access during deployment and without the computational overhead of the dual Lagrangian methods. Through extensive experiments on mathematical reasoning tasks, we demonstrate that our method achieves better constraint satisfaction rates and better reasoning compared to the soft Lagrangian relaxation baselines while maintaining competitive task performance. Our framework provides a theoretically grounded and practically efficient solution for reward-aware distillation in resource-constrained settings.
- Abstract(参考訳): 本稿では, 大規模言語モデル (LLM) の蒸留に制約付き強化学習問題として定式化することによって, 新たなアプローチを導入する。
近年の研究では、タスク固有の報酬を蒸留プロセスに統合する研究が始まっているが、既存の手法は一般にアドホックな報酬重み付けに依存している。
本稿では,教師モデルからの逸脱を一定の閾値以下に抑えながら,タスク固有の報酬を最大化する最適化フレームワークを提案する。
提案手法では,2つのラグランジアン方式の計算オーバーヘッドを伴わずに,状態拡張や教師モデルアクセスを必要とせず,制約満足度を理論的に保証する改良された報酬関数を導入する。
数学推論タスクに関する広範な実験を通じて,本手法は,競争力のあるタスク性能を維持しつつ,ソフトなラグランジアン緩和ベースラインと比較して,制約満足度と推論性の向上を実現していることを示す。
本フレームワークは,資源制約条件下での報酬意識蒸留のための理論的に基礎的かつ実用的なソリューションを提供する。
関連論文リスト
- Enhancing Reasoning Capabilities in SLMs with Reward Guided Dataset Distillation [0.0]
本稿では,報酬誘導型データセット蒸留フレームワークAdvDistillを提案する。
我々は,教師からの複数の世代(応答)を各プロンプトに利用し,ルールベースの検証に基づいて報酬を割り当てる。
これらの様々な、通常は分散された報酬は、学生モデルを訓練する際の重みとなる。
論文 参考訳(メタデータ) (2025-06-25T20:07:47Z) - Conditioning Diffusions Using Malliavin Calculus [18.62300657866048]
生成的モデリングと最適制御において、中央の計算タスクは、与えられた端末時間報酬を最大化するために参照拡散プロセスを変更することである。
本稿では,Tweedieスコア公式の非線形微分方程式への一般化を中心に,Malliavin計算に基づく新しい枠組みを導入する。
これにより、拡散ブリッジや、すでに訓練済みの拡散モデルに条件付き制御を追加するような、幅広いアプリケーションを扱うことができます。
論文 参考訳(メタデータ) (2025-04-04T14:10:21Z) - A Simple Approach to Constraint-Aware Imitation Learning with Application to Autonomous Racing [3.324196481791132]
模倣学習(IL)に安全性を組み込むための簡単なアプローチを提案する。
我々は、フルステートとイメージの両方のフィードバックで、自律的なレースタスクに対する我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2025-03-10T18:00:16Z) - RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬構造の剛性と暗黙的な報酬規則化の柔軟性を緩和する新しい逆強化学習(IRL)法を提案する。
本手法は,最大エントロピーIRLフレームワーク上に構築され,学習中に動的に進化する適応目標を持つ2乗時間差正規化器を備える。
論文 参考訳(メタデータ) (2025-02-27T13:47:29Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。