Fugu-MT 論文翻訳(概要): Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control

論文の概要: Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control

arxiv url: http://arxiv.org/abs/2407.09024v2
Date: Wed, 30 Oct 2024 07:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 22:06:29.182239
Title: Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control
Title（参考訳）: 効率的な連続制御のためのQ関数付き拡散挙動の調整
Authors: Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu,
Abstract要約: オフライン強化学習を2段階最適化問題として定式化する。まず、報酬のない行動データセットに関する表現的生成ポリシーを事前訓練し、次にこれらのポリシーを微調整して、Q値のようなタスク固有のアノテーションと整合させる。この戦略により、多種多様な行動データを活用し、一般化を強化し、最小限のアノテーションを使って下流タスクへの迅速な適応を可能にする。
参考スコア（独自算出の注目度）: 25.219524290912048
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Drawing upon recent advances in language model alignment, we formulate offline Reinforcement Learning as a two-stage optimization problem: First pretraining expressive generative policies on reward-free behavior datasets, then fine-tuning these policies to align with task-specific annotations like Q-values. This strategy allows us to leverage abundant and diverse behavior data to enhance generalization and enable rapid adaptation to downstream tasks using minimal annotations. In particular, we introduce Efficient Diffusion Alignment (EDA) for solving continuous control problems. EDA utilizes diffusion models for behavior modeling. However, unlike previous approaches, we represent diffusion policies as the derivative of a scalar neural network with respect to action inputs. This representation is critical because it enables direct density calculation for diffusion models, making them compatible with existing LLM alignment theories. During policy fine-tuning, we extend preference-based alignment methods like Direct Preference Optimization (DPO) to align diffusion behaviors with continuous Q-functions. Our evaluation on the D4RL benchmark shows that EDA exceeds all baseline methods in overall performance. Notably, EDA maintains about 95\% of performance and still outperforms several baselines given only 1\% of Q-labelled data during fine-tuning.
Abstract（参考訳）: 言語モデルアライメントの最近の進歩に基づき、オフライン強化学習を2段階最適化問題として定式化します。まず、報酬のない行動データセットに対して表現豊かな生成ポリシーを事前訓練し、次に、これらのポリシーをQ値のようなタスク固有のアノテーションに合わせるように微調整します。この戦略により、多種多様な行動データを活用し、一般化を強化し、最小限のアノテーションを使って下流タスクへの迅速な適応を可能にする。特に,連続制御問題を解くための効率的な拡散アライメント(EDA)を導入する。 EDAは拡散モデルを用いて行動モデリングを行う。しかし、従来のアプローチとは異なり、我々は拡散ポリシーを行動入力に対するスカラーニューラルネットワークの微分として表現する。この表現は拡散モデルの直接密度計算を可能にするため、既存のLLMアライメント理論と互換性がある。ポリシーの微調整中に、直接優先度最適化(DPO)のような嗜好に基づくアライメント手法を拡張して、拡散挙動を連続的なQ-関数と整合させる。 D4RL ベンチマークによる評価の結果,EDA は全体の性能においてすべての基準手法を超越していることがわかった。特に、EDAは95%程度のパフォーマンスを維持し、微調整中にQラベル付きデータのわずか1倍の精度でいくつかのベースラインを上回ります。

関連論文リスト

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-27T13:48:50Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
Diffusion Policies with Value-Conditional Optimization for Offline Reinforcement Learning [11.523827300607541]
本稿では,Deffusion Policy with Value-conditional Optimization (DIVO)を提案する。 DIVOは、効率的な政策改善を促進しつつ、高品質で広範囲に分布する状態-作用サンプルを生成する。 D4RLベンチマーク上でDIVOを評価し、最先端のベースラインと比較する。
論文参考訳（メタデータ） (2025-11-12T02:59:07Z)
Control-Augmented Autoregressive Diffusion for Data Assimilation [17.305296093966803]
本稿では,ARDMを軽量コントローラで拡張するアモールト化フレームワークを提案する。我々はこの枠組みをカオス偏微分方程式(PDE)に対するデータ同化(DA)の文脈で評価する。提案手法は,DA推論をオンザフライ修正による単一前方ロールアウトに還元し,推論中に高価な随伴計算や最適化を回避する。
論文参考訳（メタデータ） (2025-10-08T04:37:32Z)
Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文参考訳（メタデータ） (2025-09-02T07:51:59Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations [2.992602379681373]
マルチモーダル微調整により,OoDDの性能が向上することを示す。本稿では,IDデータの画像とテキストの埋め込み距離を正規化することにより,モーダルアライメントを向上させる訓練目標を提案する。
論文参考訳（メタデータ） (2025-03-24T16:00:21Z)
Preference-Based Alignment of Discrete Diffusion Models [14.874943508610857]
連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を導入する。提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
論文参考訳（メタデータ） (2025-03-11T11:07:35Z)
Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [11.400431211239958]
拡散モデルは生成モデリングの強力なツールとして登場してきた。微調整拡散モデルのための制御フレームワークを提案する。 PI-FTは線形速度で大域収束することを示す。
論文参考訳（メタデータ） (2024-12-24T04:55:46Z)
Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文参考訳（メタデータ） (2024-10-31T14:52:01Z)
Dual Conditional Diffusion Models for Sequential Recommendation [63.82152785755723]
シーケンスレコメンデーションのための二重条件拡散モデル(DCRec)を提案する。 DCRecは2つの条件を前と逆の拡散プロセスに埋め込むことで暗黙的および明示的な情報を統合する。これによってモデルは、明示的なユーザ-イテムインタラクションを活用してレコメンデーションプロセスをガイドしながら、価値あるシーケンシャルおよびコンテキスト情報を保持することができる。
論文参考訳（メタデータ） (2024-10-29T11:51:06Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning [43.74071631716718]
DICEに基づく手法は,行動分布から最適な政策分布への変換とみなすことができる。本稿では拡散モデルを用いて直接この変換を行う新しい手法Diffusion-DICEを提案する。
論文参考訳（メタデータ） (2024-07-29T15:36:42Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文参考訳（メタデータ） (2024-06-17T22:00:26Z)
Adaptive debiased SGD in high-dimensional GLMs with streaming data [4.704144189806667]
我々は、高次元一般化線形モデルにおいて、オンライン推論に新しいアプローチを導入する。本手法はシングルパスモードで動作し,時間と空間の複雑さを著しく低減する。提案手法は,ADL (Approximated Debiased Lasso) と呼ばれ,有界な個人確率条件の必要性を緩和するだけでなく,数値性能も著しく向上することを示した。
論文参考訳（メタデータ） (2024-05-28T15:36:48Z)
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文参考訳（メタデータ） (2022-11-20T21:57:10Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Data Augmentation through Expert-guided Symmetry Detection to Improve Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文参考訳（メタデータ） (2021-12-18T14:32:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。