論文の概要: Policy-Based Trajectory Clustering in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.09202v1
- Date: Tue, 10 Jun 2025 19:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.993834
- Title: Policy-Based Trajectory Clustering in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における政策に基づく軌道クラスタリング
- Authors: Hao Hu, Xinqi Wang, Simon Shaolei Du,
- Abstract要約: オフライン強化学習(RL)データセットから,新たなクラスタリングトラジェクトリを導入する。
政策誘導型K-means(PG-Kmeans)とCentroid-Attracted Autoencoder(CAAE)を提案する。
その結果,PG-Kmeans と CAAE は共に,軌道を有意なクラスタに分割できることがわかった。
- 参考スコア(独自算出の注目度): 13.2121042054826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel task of clustering trajectories from offline reinforcement learning (RL) datasets, where each cluster center represents the policy that generated its trajectories. By leveraging the connection between the KL-divergence of offline trajectory distributions and a mixture of policy-induced distributions, we formulate a natural clustering objective. To solve this, we propose Policy-Guided K-means (PG-Kmeans) and Centroid-Attracted Autoencoder (CAAE). PG-Kmeans iteratively trains behavior cloning (BC) policies and assigns trajectories based on policy generation probabilities, while CAAE resembles the VQ-VAE framework by guiding the latent representations of trajectories toward the vicinity of specific codebook entries to achieve clustering. Theoretically, we prove the finite-step convergence of PG-Kmeans and identify a key challenge in offline trajectory clustering: the inherent ambiguity of optimal solutions due to policy-induced conflicts, which can result in multiple equally valid but structurally distinct clusterings. Experimentally, we validate our methods on the widely used D4RL dataset and custom GridWorld environments. Our results show that both PG-Kmeans and CAAE effectively partition trajectories into meaningful clusters. They offer a promising framework for policy-based trajectory clustering, with broad applications in offline RL and beyond.
- Abstract(参考訳): オフライン強化学習(RL)データセットのクラスタリングトラジェクトリを新たに導入し,各クラスタセンタがそのトラジェクトリを生成するポリシを表現した。
オフライン軌道分布のKL分割と政策誘導分布の混合との接続を利用して、自然クラスタリングの目的を定式化する。
そこで本研究では,ポリシガイド付きK-means(PG-Kmeans)とCentroid-Attracted Autoencoder(CAAE)を提案する。
PG-Kmeansは、行動クローニング(BC)ポリシーを反復的に訓練し、ポリシー生成確率に基づいてトラジェクトリを割り当てる一方、CAAEは、特定のコードブックエントリの近傍にトラジェクトリの潜在表現を誘導してクラスタリングを実現することで、VQ-VAEフレームワークに似ている。
理論的には、PG-Kmeansの有限段階収束を証明し、オフライン軌道クラスタリングにおける重要な課題を同定する。
実験により,広範に使用されているD4RLデータセットとGridWorld環境に対して,本手法の有効性を検証した。
その結果,PG-Kmeans と CAAE は共に,軌道を有意なクラスタに分割できることがわかった。
それらはポリシーベースの軌道クラスタリングのための有望なフレームワークを提供する。
関連論文リスト
- On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。
RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Dynamically Weighted Federated k-Means [0.0]
フェデレートされたクラスタリングにより、複数のデータソースが協力してデータをクラスタリングし、分散化とプライバシ保護を維持できる。
我々は,ロイドのk-meansクラスタリング法に基づいて,動的に重み付けされたk-means (DWF k-means) という新しいクラスタリングアルゴリズムを提案する。
我々は、クラスタリングスコア、精度、およびv尺度の観点から、アルゴリズムの性能を評価するために、複数のデータセットとデータ分散設定の実験を行う。
論文 参考訳(メタデータ) (2023-10-23T12:28:21Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Unsupervised Domain Adaptation via Distilled Discriminative Clustering [45.39542287480395]
対象データの識別クラスタリングとしてドメイン適応問題を再検討する。
本稿では,ラベル付き情報源データよりも並列に教師付き学習目標を用いて,ネットワークを協調的に訓練することを提案する。
5つの人気のあるベンチマークデータセットに対して、慎重にアブレーション研究と広範な実験を行う。
論文 参考訳(メタデータ) (2023-02-23T13:03:48Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Is it all a cluster game? -- Exploring Out-of-Distribution Detection
based on Clustering in the Embedding Space [7.856998585396422]
新しい入力がトレーニング分布と大きく異なるタイミングを決定するためには、ディープニューラルネットワークの安全性クリティカルな応用が不可欠である。
埋め込み空間におけるクラスタの構造と分離について検討し、教師付きコントラスト学習が十分に分離されたクラスタに繋がることを示す。
異なるトレーニング方法、クラスタリング戦略、距離メトリクス、しきい値設定アプローチの分析において、明確な勝者は存在しない。
論文 参考訳(メタデータ) (2022-03-16T11:22:23Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Unsupervised Domain Adaptation via Structurally Regularized Deep
Clustering [35.008158504090176]
教師なし領域適応(Unsupervised domain adapt, UDA)とは、対象ドメイン上のラベルなしデータの予測であり、対象ドメインから分布がシフトするソースドメイン上のラベル付きデータである。
対象データの識別クラスタリングにより,本質的な対象識別を直接発見することを提案する。
我々は,提案手法をSRDC (Structurely Regularized Deep Clustering) と呼ぶ。
論文 参考訳(メタデータ) (2020-03-19T07:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。