論文の概要: Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data
- arxiv url: http://arxiv.org/abs/2505.23062v1
- Date: Thu, 29 May 2025 04:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.669029
- Title: Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data
- Title(参考訳): シフト動的データを用いた強化学習のための複合フローマッチング
- Authors: Lingkai Kong, Haichuan Wang, Tonghan Wang, Guojun Xiong, Milind Tambe,
- Abstract要約: CompFlowは、フローマッチングと最適輸送の間の理論的接続を基礎とする手法である。
我々は、ソース・ドメインフローの出力分布に基づいて構築された条件フローとして、ターゲットダイナミクスをモデル化する。
CompFlowは、動的に変化する複数のRLベンチマークにおいて、強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 33.9944806028575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating pre-collected offline data from a source environment can significantly improve the sample efficiency of reinforcement learning (RL), but this benefit is often challenged by discrepancies between the transition dynamics of the source and target environments. Existing methods typically address this issue by penalizing or filtering out source transitions in high dynamics-gap regions. However, their estimation of the dynamics gap often relies on KL divergence or mutual information, which can be ill-defined when the source and target dynamics have disjoint support. To overcome these limitations, we propose CompFlow, a method grounded in the theoretical connection between flow matching and optimal transport. Specifically, we model the target dynamics as a conditional flow built upon the output distribution of the source-domain flow, rather than learning it directly from a Gaussian prior. This composite structure offers two key advantages: (1) improved generalization for learning target dynamics, and (2) a principled estimation of the dynamics gap via the Wasserstein distance between source and target transitions. Leveraging our principled estimation of the dynamics gap, we further introduce an optimistic active data collection strategy that prioritizes exploration in regions of high dynamics gap, and theoretically prove that it reduces the performance disparity with the optimal policy. Empirically, CompFlow outperforms strong baselines across several RL benchmarks with shifted dynamics.
- Abstract(参考訳): ソース環境から事前収集したオフラインデータを組み込むことで、強化学習(RL)のサンプル効率を大幅に向上させることができるが、ソース環境とターゲット環境の遷移ダイナミクスの相違により、この利点がしばしば挑戦される。
既存の手法では、高ダイナミックギャップ領域のソース遷移をペナル化またはフィルタリングすることでこの問題に対処するのが一般的である。
しかしながら、それらのダイナミックスギャップの推定は、しばしばKLの発散や相互情報に依存し、ソースとターゲットのダイナミクスが不結合なサポートを持つ場合、不確定にすることができる。
これらの制約を克服するために,フローマッチングと最適輸送の理論的接続を基礎としたCompFlowを提案する。
具体的には、ガウス前から直接学習するのではなく、ソースドメインフローの出力分布に基づいて構築された条件フローとしてターゲットダイナミクスをモデル化する。
この複合構造は、(1)学習対象ダイナミクスの一般化の改善、(2)ソースと目標遷移の間のワッサーシュタイン距離によるダイナミックスギャップの原理的推定の2つの大きな利点を提供する。
ダイナミックスギャップの原理的推定を活用することで,高ダイナミックスギャップの領域での探索を優先する楽観的なアクティブデータ収集戦略を導入し,最適ポリシによる性能格差の低減を理論的に証明する。
経験的に、CompFlowは、動的にシフトした複数のRLベンチマークで、強いベースラインを上回ります。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T04:56:43Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Online Boosting Adaptive Learning under Concept Drift for Multistream
Classification [34.64751041290346]
マルチストリーム分類は,コンセプトドリフトを伴う動的ストリーミングプロセスにおいて,迅速な適応の必要性から,重要な課題となっている。
本稿では,異なるストリーム間の動的相関を適応的に学習する新しいオンラインブースティング適応学習法を提案する。
論文 参考訳(メタデータ) (2023-12-17T23:10:39Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。