論文の概要: Harnessing Data from Clustered LQR Systems: Personalized and Collaborative Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.17489v1
- Date: Fri, 21 Nov 2025 18:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.171029
- Title: Harnessing Data from Clustered LQR Systems: Personalized and Collaborative Policy Optimization
- Title(参考訳): クラスタ型LQRシステムからのハーネス化:パーソナライズされた協調的政策最適化
- Authors: Vinay Kanakeri, Shivam Bajaj, Ashwin Verma, Vijay Gupta, Aritra Mitra,
- Abstract要約: 我々は、パーソナライズされたポリシーを学ぶために、クラスタリングがデータ駆動制御にどのように使われるかを示す。
私たちの仕事は、パーソナライズされたポリシーを学ぶために、データ駆動制御でクラスタリングをどのように使用できるかを明らかにする最初のものです。
- 参考スコア(独自算出の注目度): 4.770545528276722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is known that reinforcement learning (RL) is data-hungry. To improve sample-efficiency of RL, it has been proposed that the learning algorithm utilize data from 'approximately similar' processes. However, since the process models are unknown, identifying which other processes are similar poses a challenge. In this work, we study this problem in the context of the benchmark Linear Quadratic Regulator (LQR) setting. Specifically, we consider a setting with multiple agents, each corresponding to a copy of a linear process to be controlled. The agents' local processes can be partitioned into clusters based on similarities in dynamics and tasks. Combining ideas from sequential elimination and zeroth-order policy optimization, we propose a new algorithm that performs simultaneous clustering and learning to output a personalized policy (controller) for each cluster. Under a suitable notion of cluster separation that captures differences in closed-loop performance across systems, we prove that our approach guarantees correct clustering with high probability. Furthermore, we show that the sub-optimality gap of the policy learned for each cluster scales inversely with the size of the cluster, with no additional bias, unlike in prior works on collaborative learning-based control. Our work is the first to reveal how clustering can be used in data-driven control to learn personalized policies that enjoy statistical gains from collaboration but do not suffer sub-optimality due to inclusion of data from dissimilar processes. From a distributed implementation perspective, our method is attractive as it incurs only a mild logarithmic communication overhead.
- Abstract(参考訳): 強化学習(RL)がデータハングリーであることが知られている。
RLのサンプル効率を向上させるために,学習アルゴリズムは「ほぼ類似した」プロセスからのデータを活用することが提案されている。
しかし、プロセスモデルが不明であるため、どのプロセスが類似しているかを特定することは困難である。
本研究では,この問題をLQR(Linear Quadratic Regulator)設定の文脈で検討する。
具体的には、線形プロセスのコピーに対応する複数のエージェントによる設定を制御すべきと考える。
エージェントのローカルプロセスは、動的およびタスクの類似性に基づいてクラスタに分割できる。
逐次排除とゼロオーダーポリシー最適化のアイデアを組み合わせることで,クラスタ毎に個別化されたポリシー(コントローラ)を出力するクラスタリングと学習を同時に行うアルゴリズムを提案する。
システム間のクローズドループ性能の違いを捉えたクラスタ分離の適切な概念の下で,本手法が正しいクラスタリングを高い確率で保証することを示す。
さらに,各クラスタで学習したポリシのサブ最適性ギャップは,従来の協調学習に基づく制御研究とは異なり,クラスタのサイズに反し,追加のバイアスを伴わないことを示す。
我々の研究は、データ駆動制御においてクラスタリングをどのように利用して、コラボレーションから統計的な利益を享受するパーソナライズされたポリシーを学習するかを初めて明らかにしました。
分散実装の観点からは,軽度の対数通信オーバーヘッドしか生じないので,本手法は魅力的である。
関連論文リスト
- RCC-PFL: Robust Client Clustering under Noisy Labels in Personalized Federated Learning [8.37314799155978]
本稿では,RCC-PFLというラベルに依存しない類似性に基づくクラスタリングアルゴリズムを提案する。
平均精度と分散低減率で複数のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-25T17:50:54Z) - Data Similarity-Based One-Shot Clustering for Multi-Task Hierarchical Federated Learning [8.37314799155978]
本研究では,データの類似性に基づいてユーザを効果的に識別し,グループ化できるワンショットクラスタリングアルゴリズムを提案する。
提案アルゴリズムはクラスタリングプロセスを強化するだけでなく,プライバシの懸念や通信のオーバーヘッド,学習モデルや損失関数の振る舞いに関する事前知識の必要性といった課題も克服する。
論文 参考訳(メタデータ) (2024-10-03T17:51:21Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Dynamic Clustering and Cluster Contrastive Learning for Unsupervised
Person Re-identification [29.167783500369442]
教師なしRe-ID手法は、ラベルのないデータから堅牢で差別的な特徴を学習することを目的としている。
本稿では,動的クラスタリングとクラスタコントラスト学習(DCCC)手法を提案する。
提案したDCCCの有効性を検証するために, 広く利用されている複数の公開データセットの実験を行った。
論文 参考訳(メタデータ) (2023-03-13T01:56:53Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。