論文の概要: Algorithmic Guarantees for Distilling Supervised and Offline RL Datasets
- arxiv url: http://arxiv.org/abs/2512.00536v1
- Date: Sat, 29 Nov 2025 16:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.284091
- Title: Algorithmic Guarantees for Distilling Supervised and Offline RL Datasets
- Title(参考訳): 監視およびオフラインRLデータセットの蒸留のためのアルゴリズム保証
- Authors: Aaryan Gupta, Rishi Saket, Aravindan Raghuveer,
- Abstract要約: 教師あり学習のための効率的なデータセット蒸留アルゴリズムを開発し,解析する。
我々のアルゴリズムは、合成データセットを導出するために、$tildeO(d2)$サンプル回帰器のみが必要であることを証明している。
我々はベルマンの損失と一致させることで,我々のアルゴリズムをオフラインのRLデータセット蒸留に拡張する。
- 参考スコア(独自算出の注目度): 16.403657943391188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a training dataset, the goal of dataset distillation is to derive a synthetic dataset such that models trained on the latter perform as well as those trained on the training dataset. In this work, we develop and analyze an efficient dataset distillation algorithm for supervised learning, specifically regression in $\mathbb{R}^d$, based on matching the losses on the training and synthetic datasets with respect to a fixed set of randomly sampled regressors without any model training. Our first key contribution is a novel performance guarantee proving that our algorithm needs only $\tilde{O}(d^2)$ sampled regressors to derive a synthetic dataset on which the MSE loss of any bounded linear model is nearly the same as its MSE loss on the given training data. In particular, the model optimized on the synthetic data has close to minimum loss on the training data, thus performing nearly as well as the model optimized on the latter. Complementing this, we also prove a matching lower bound of $Ω(d^2)$ for the number of sampled regressors showing the tightness of our analysis. Our second contribution is to extend our algorithm to offline RL dataset distillation by matching the Bellman loss, unlike previous works which used a behavioral cloning objective. This is the first such method which leverages both, the rewards and the next state information, available in offline RL datasets, without any policy model optimization. Our algorithm generates a synthetic dataset whose Bellman loss with respect to any linear action-value predictor is close to the latter's Bellman loss on the offline RL training dataset. Therefore, a policy associated with an action-value predictor optimized on the synthetic dataset performs nearly as well as that derived from the one optimized on the training data. We conduct experiments to validate our theoretical guarantees and observe performance gains.
- Abstract(参考訳): トレーニングデータセットが与えられた場合、データセット蒸留の目標は、後者でトレーニングされたモデルとトレーニングデータセットでトレーニングされたモデルが実行するように、合成データセットを導出することである。
本研究では,教師付き学習のための効率的なデータセット蒸留アルゴリズムを開発し,特にモデルトレーニングなしでランダムにサンプリングされた回帰器の固定セットに対して,トレーニングと合成データセットの損失に一致した結果に基づいて,$\mathbb{R}^d$の回帰を解析する。
我々の最初の重要な貢献は、任意の有界線形モデルのMSE損失が与えられたトレーニングデータ上のMSE損失とほぼ等しい合成データセットを導出するために、我々のアルゴリズムが$\tilde{O}(d^2)$サンプル回帰器のみを必要とすることを証明する新しい性能保証である。
特に、合成データに最適化されたモデルは、トレーニングデータに最小限の損失を与えるため、後者に最適化されたモデルとほぼ同等の性能を発揮する。
これを補完し、我々の分析の厳密さを示すサンプル回帰器の数に対して、$Ω(d^2)$の一致した下界を証明した。
第2のコントリビューションは,行動クローニングの目的を用いた以前の研究とは異なり,ベルマンの損失と一致させることで,我々のアルゴリズムをオフラインのRLデータセット蒸留に拡張することである。
これは、ポリシーモデル最適化なしでオフラインのRLデータセットで利用できる報酬と次の状態情報の両方を活用する最初の方法である。
我々のアルゴリズムは,任意の線形アクション値予測器に対するベルマンの損失が,オフラインRLトレーニングデータセットにおけるベルマンの損失に近い合成データセットを生成する。
したがって、合成データセットに最適化されたアクション値予測器に関連付けられたポリシーは、トレーニングデータに最適化されたアクション値とほぼ同等に実行される。
理論的保証を検証し、性能向上を観察する実験を行う。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。
この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-04-20T06:45:16Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold [41.28168368547099]
モデル生成合成データのトレーニングは、LLMを微調整する上で有望なアプローチであるが、それがいつ役に立つかは、まだ不明である。
ステップごとの負のトレーニングは、ポジティブなデータにおける突発的な相関を解き放つのに役立ちます。
論文 参考訳(メタデータ) (2024-06-20T17:45:54Z) - Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。