論文の概要: State Diversity Matters in Offline Behavior Distillation
- arxiv url: http://arxiv.org/abs/2512.06692v1
- Date: Sun, 07 Dec 2025 06:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.472857
- Title: State Diversity Matters in Offline Behavior Distillation
- Title(参考訳): オフラインの挙動蒸留における状態の多様性
- Authors: Shiye Lei, Zhihao Cheng, Dacheng Tao,
- Abstract要約: トレーニング損失がかなり大きい場合、状態多様性の高いデータセットは、より高い状態品質のデータセットよりも優れていることを示す。
本稿では, 蒸留目標の重み付けにより, 状態の多様性を強調する新しいアルゴリズム, 状態密度重み付け (SDW) OBDを提案する。
- 参考スコア(独自算出の注目度): 58.116300485427764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Behavior Distillation (OBD), which condenses massive offline RL data into a compact synthetic behavioral dataset, offers a promising approach for efficient policy training and can be applied across various downstream RL tasks. In this paper, we uncover a misalignment between original and distilled datasets, observing that a high-quality original dataset does not necessarily yield a superior synthetic dataset. Through an empirical analysis of policy performance under varying levels of training loss, we show that datasets with greater state diversity outperforms those with higher state quality when training loss is substantial, as is often the case in OBD, whereas the relationship reverses under minimal loss, which contributes to the misalignment. By associating state quality and diversity in reducing pivotal and surrounding error, respectively, our theoretical analysis establishes that surrounding error plays a more crucial role in policy performance when pivotal error is large, thereby highlighting the importance of state diversity in OBD scenario. Furthermore, we propose a novel yet simple algorithm, state density weighted (SDW) OBD, which emphasizes state diversity by weighting the distillation objective using the reciprocal of state density, thereby distilling a more diverse state information into synthetic data. Extensive experiments across multiple D4RL datasets confirm that SDW significantly enhances OBD performance when the original dataset exhibits limited state diversity.
- Abstract(参考訳): 大規模なオフラインRLデータをコンパクトな合成行動データセットに凝縮するオフライン行動蒸留(OBD)は、効率的なポリシートレーニングのための有望なアプローチを提供し、さまざまな下流RLタスクに適用することができる。
本稿では,高品質な原データセットが必ずしも優れた合成データセットを生成するとは限らないことを観察し,原データセットと蒸留データセットのミスアライメントを明らかにする。
トレーニング損失のレベルが異なる場合の政策性能の実証分析により、トレーニング損失がかなり大きい場合には、より高い状態多様性のデータセットがより高い状態品質のデータセットよりも優れており、OBDの場合と同様、その関係は最小限の損失で逆転し、このミスアライメントに寄与することを示した。
本理論は, 主軸誤差と周辺誤差を減少させる際の状態品質と多様性を関連付けることによって, 主軸誤差が大きい場合, 周辺誤差が政策性能においてより重要な役割を担っていることを証明し, OBDシナリオにおける状態多様性の重要性を強調した。
さらに, 状態密度の相互利用による蒸留目標の重み付けにより, より多様な状態情報を合成データに抽出することにより, 状態の多様性を強調する新しいアルゴリズム, 状態密度重み付きOBDを提案する。
複数のD4RLデータセットにわたる大規模な実験により、SDWは、元のデータセットが限られた状態の多様性を示す場合、OBDのパフォーマンスを著しく向上することを確認した。
関連論文リスト
- Diffusion Models as Dataset Distillation Priors [39.4727398182562]
本稿では,特徴空間における合成データと実データとの類似性を定量化し,代表性を定式化するAs Diffusion Priors (DAP)を提案する。
DAPは、高忠実度データセットを生成する上で、最先端の手法よりも優れています。
我々の研究は、拡散先行とデータセット蒸留の目的との理論的関係を確立する。
論文 参考訳(メタデータ) (2025-10-20T11:04:09Z) - Beyond Real Data: Synthetic Data through the Lens of Regularization [9.459299281438074]
合成データは、実際のデータが不足しているときに一般化を改善することができるが、過度な依存は、性能を低下させる分布ミスマッチをもたらす可能性がある。
本稿では,合成データと実データとのトレードオフを定量化する学習理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T11:33:09Z) - How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients [24.699470675718466]
本稿では,低品質な命令と推論データによって誘導される層次勾配のスペクトル解析を行う。
我々の研究は、データ品質とトレーニング安定性の相互作用を照らし、ポストトレーニングのためのより良いデータ探索戦略を開発するための新しい洞察を隠蔽する。
論文 参考訳(メタデータ) (2025-04-14T23:53:47Z) - Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-10T03:38:11Z) - Synthetic Data is an Elegant GIFT for Continual Vision-Language Models [52.343627275005026]
GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。
我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。
提案手法は,様々な設定において従来手法よりも常に優れていた。
論文 参考訳(メタデータ) (2025-03-06T09:09:18Z) - Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。