論文の概要: Unsupervised Behavioral Compression: Learning Low-Dimensional Policy Manifolds through State-Occupancy Matching
- arxiv url: http://arxiv.org/abs/2603.27044v2
- Date: Thu, 02 Apr 2026 16:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.073979
- Title: Unsupervised Behavioral Compression: Learning Low-Dimensional Policy Manifolds through State-Occupancy Matching
- Title(参考訳): 教師なし行動圧縮:状態-業務整合による低次元政策マニフォールドの学習
- Authors: Andrea Fraschini, Davide Tenedini, Riccardo Zamboni, Mirco Mutti, Marcello Restelli,
- Abstract要約: アクションベースのポリシー圧縮(APC)は、サンプル非効率であると広く認識されている。
我々は,行動表現を即時的行動マッチングから長期的状態空間カバレッジにシフトさせることにより,APCを向上させるOccupancy-based Policy Compression (OPC)を紹介した。
これらの修正により、生成モデルは真の機能的類似性を取り巻く潜在空間を整理し、幅広い振る舞いを一般化する潜在表現を促進する。
- 参考スコア(独自算出の注目度): 42.26405543045843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DRL) is widely recognized as sample-inefficient, a limitation attributable in part to the high dimensionality and substantial functional redundancy inherent to the policy parameter space. A recent framework, which we refer to as Action-based Policy Compression (APC), mitigates this issue by compressing the parameter space $Θ$ into a low-dimensional latent manifold $\mathcal Z$ using a learned generative mapping $g:\mathcal Z \to Θ$. However, its performance is severely constrained by relying on immediate action-matching as a reconstruction loss, a myopic proxy for behavioral similarity that suffers from compounding errors across sequential decisions. To overcome this bottleneck, we introduce Occupancy-based Policy Compression (OPC), which enhances APC by shifting behavior representation from immediate action-matching to long-horizon state-space coverage. Specifically, we propose two principal improvements: (1) we curate the dataset generation with an information-theoretic uniqueness metric that delivers a diverse population of policies; and (2) we propose a fully differentiable compression objective that directly minimizes the divergence between the true and reconstructed mixture occupancy distributions. These modifications force the generative model to organize the latent space around true functional similarity, promoting a latent representation that generalizes over a broad spectrum of behaviors while retaining most of the original parameter space's expressivity. Finally, we empirically validate the advantages of our contributions across multiple continuous control benchmarks.
- Abstract(参考訳): 深層強化学習(Dep Reinforcement Learning, DRL)は, 政策パラメータ空間に固有の高次元性と機能的冗長性に起因する制約として, サンプル非効率と広く認識されている。
最近のフレームワークは、APC (Action-based Policy Compression) と呼ばれ、パラメータ空間を、学習された生成写像 $g:\mathcal Z \to >$ を用いて、低次元の潜在多様体 $\mathcal Z$ に圧縮することで、この問題を緩和する。
しかし、その性能は、逐次的な決定を複雑にする誤りに苦しむ行動類似性のミオピックプロキシであるリコンストラクション損失として、即時的なアクションマッチングを頼りにすることで厳しい制約を受ける。
このボトルネックを克服するため,我々は,行動表現を即時的行動マッチングから長期的状態空間カバレッジにシフトさせることにより,APCを向上させるOccupancy-based Policy Compression (OPC)を導入する。
具体的には,(1)多種多様なポリシーを提供する情報理論的一意性指標を用いてデータセット生成をキュレートし,(2)真の混在分布と再構成された混在占有分布のばらつきを直接最小化する,完全に微分可能な圧縮目標を提案する。
これらの修正により、生成モデルは真の機能的類似性を取り巻く潜在空間を整理し、元のパラメータ空間の表現性の大部分を保持しながら、幅広い振る舞いのスペクトルを一般化する潜在表現を促進する。
最後に、複数の継続的制御ベンチマークにまたがるコントリビューションのメリットを実証的に検証します。
関連論文リスト
- SiMPO: Measure Matching for Online Diffusion Reinforcement Learning [52.46919717963149]
一般単調関数を持つ拡散RLにおける再重み付けスキームを一般化する,シンプルで統一的なフレームワークであるSiMPOを紹介する。
SiMPOは2段階の測度マッチングレンズを介して拡散RLを再考する。
我々は、負の再重み付けが準最適行動から政策を積極的に反映していることを示す幾何学的解釈を提供する。
論文 参考訳(メタデータ) (2026-03-10T22:01:13Z) - Rethinking Transferable Adversarial Attacks on Point Clouds from a Compact Subspace Perspective [55.919842734983156]
CoSAは、共有された低次元セマンティック空間内で機能する転送可能なアタックフレームワークである。
CoSAは、最先端のトランスファー可能な攻撃を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T15:48:11Z) - Learning Causality for Longitudinal Data [1.2691047660244335]
この論文は、高次元の時間変化データにおける因果推論と因果表現学習の手法を開発する。
最初のコントリビューションは、個別処理効果(ITE)を推定するモデルであるCDVAE(Causal Dynamic Variational Autoencoder)の導入である。
第2のコントリビューションでは,Contrastive Predictive Coding (CPC) とInfoMaxによって強化された RNN に基づく長期的反事実回帰のための効率的なフレームワークを提案する。
第3のコントリビューションは、潜伏が観察された変数にどのように現れるかに対処することでCRLを前進させる。
論文 参考訳(メタデータ) (2025-12-04T16:51:49Z) - Sliced Rényi Pufferfish Privacy: Directional Additive Noise Mechanism and Private Learning with Gradient Clipping [27.430637970345433]
本稿では,Pufferfish ファミリーにおける民営化機構の設計とプライバシ会計について検討する。
Sliced Renyi Pufferfish Privacy (SRPP)を導入し、一組の単位ベクトル上での方向比較を高次元に置き換える。
提案手法は, 静的かつ反復的な設定において, プライバシー利用のトレードオフを良好に実現していることを示す。
論文 参考訳(メタデータ) (2025-11-30T22:22:29Z) - On Geometric Structures for Policy Parameterization in Continuous Control [7.056222499095849]
本稿では,単位多様体上での演算による構造的利点を保った,計算効率の良いアクション生成パラダイムを提案する。
本手法は,動作を決定論的方向ベクトルと学習可能な濃度に分解し,目標方向と一様雑音との効率性を実現する。
実証的に、我々の手法は標準的な連続制御ベンチマークで最先端の手法と一致するか超えている。
論文 参考訳(メタデータ) (2025-11-11T13:32:38Z) - From Parameters to Behavior: Unsupervised Compression of the Policy Space [45.34282087299665]
我々は、ポリシーパラメータ空間 $Theta$ を低次元潜在空間 $mathcalZ$ に圧縮する、新しい教師なしのアプローチを開発する。
学習された多様体は、潜時空間$mathcalZ$におけるポリシーグラディエント操作によるタスク固有の適応を可能にする。
論文 参考訳(メタデータ) (2025-09-26T16:42:52Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。