論文の概要: Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control
- arxiv url: http://arxiv.org/abs/2407.09024v1
- Date: Fri, 12 Jul 2024 06:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:26:50.045253
- Title: Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control
- Title(参考訳): 効率的な連続制御のためのQ関数付き拡散挙動の調整
- Authors: Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu,
- Abstract要約: オフライン強化学習を2段階最適化問題として定式化する。
まず、報酬のない行動データセットに関する表現的生成ポリシーを事前訓練し、次にこれらのポリシーを微調整して、Q値のようなタスク固有のアノテーションと整合させる。
この戦略により、多種多様な行動データを活用し、一般化を強化し、最小限のアノテーションを使って下流タスクへの迅速な適応を可能にする。
- 参考スコア(独自算出の注目度): 25.219524290912048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drawing upon recent advances in language model alignment, we formulate offline Reinforcement Learning as a two-stage optimization problem: First pretraining expressive generative policies on reward-free behavior datasets, then fine-tuning these policies to align with task-specific annotations like Q-values. This strategy allows us to leverage abundant and diverse behavior data to enhance generalization and enable rapid adaptation to downstream tasks using minimal annotations. In particular, we introduce Efficient Diffusion Alignment (EDA) for solving continuous control problems. EDA utilizes diffusion models for behavior modeling. However, unlike previous approaches, we represent diffusion policies as the derivative of a scalar neural network with respect to action inputs. This representation is critical because it enables direct density calculation for diffusion models, making them compatible with existing LLM alignment theories. During policy fine-tuning, we extend preference-based alignment methods like Direct Preference Optimization (DPO) to align diffusion behaviors with continuous Q-functions. Our evaluation on the D4RL benchmark shows that EDA exceeds all baseline methods in overall performance. Notably, EDA maintains about 95\% of performance and still outperforms several baselines given only 1\% of Q-labelled data during fine-tuning.
- Abstract(参考訳): 言語モデルアライメントの最近の進歩に基づき、オフライン強化学習を2段階最適化問題として定式化します。 まず、報酬のない行動データセットに対して表現豊かな生成ポリシーを事前訓練し、次に、これらのポリシーをQ値のようなタスク固有のアノテーションに合わせるように微調整します。
この戦略により、多種多様な行動データを活用し、一般化を強化し、最小限のアノテーションを使って下流タスクへの迅速な適応を可能にする。
特に,連続制御問題を解くための効率的な拡散アライメント(EDA)を導入する。
EDAは拡散モデルを用いて行動モデリングを行う。
しかし、従来のアプローチとは異なり、我々は拡散ポリシーを行動入力に対するスカラーニューラルネットワークの微分として表現する。
この表現は拡散モデルの直接密度計算を可能にするため、既存のLLMアライメント理論と互換性がある。
ポリシーの微調整中に、直接優先度最適化(DPO)のような嗜好に基づくアライメント手法を拡張して、拡散挙動を連続的なQ-関数と整合させる。
D4RL ベンチマークによる評価の結果,EDA は全体の性能においてすべての基準手法を超越していることがわかった。
特に、EDAは95%程度のパフォーマンスを維持し、微調整中にQラベル付きデータのわずか1倍の精度でいくつかのベースラインを上回ります。
関連論文リスト
- Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning [43.74071631716718]
DICEに基づく手法は,行動分布から最適な政策分布への変換とみなすことができる。
本稿では拡散モデルを用いて直接この変換を行う新しい手法Diffusion-DICEを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:36:42Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Adaptive debiased SGD in high-dimensional GLMs with streaming data [4.704144189806667]
我々は、高次元一般化線形モデルにおいて、オンライン推論に新しいアプローチを導入する。
本手法はシングルパスモードで動作し,時間と空間の複雑さを著しく低減する。
提案手法は,ADL (Approximated Debiased Lasso) と呼ばれ,有界な個人確率条件の必要性を緩和するだけでなく,数値性能も著しく向上することを示した。
論文 参考訳(メタデータ) (2024-05-28T15:36:48Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。