論文の概要: Group-Invariant Unsupervised Skill Discovery: Symmetry-aware Skill Representations for Generalizable Behavior
- arxiv url: http://arxiv.org/abs/2601.14000v1
- Date: Tue, 20 Jan 2026 14:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.346939
- Title: Group-Invariant Unsupervised Skill Discovery: Symmetry-aware Skill Representations for Generalizable Behavior
- Title(参考訳): グループ不変な教師なしスキル発見: 一般化可能な振る舞いのための対称性を考慮したスキル表現
- Authors: Junwoo Chang, Joseph Park, Roberto Horowitz, Jongmin Lee, Jongeun Choi,
- Abstract要約: Group-Invariant Skill Discoveryは、グループ構造をスキル発見の目的に組み込むフレームワークである。
GISD は,下流のタスク学習において,強大なベースラインに比べて,広範な状態空間のカバレッジを実現し,効率を向上することを示す。
- 参考スコア(独自算出の注目度): 7.469447825853364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised skill discovery aims to acquire behavior primitives that improve exploration and accelerate downstream task learning. However, existing approaches often ignore the geometric symmetries of physical environments, leading to redundant behaviors and sample inefficiency. To address this, we introduce Group-Invariant Skill Discovery (GISD), a framework that explicitly embeds group structure into the skill discovery objective. Our approach is grounded in a theoretical guarantee: we prove that in group-symmetric environments, the standard Wasserstein dependency measure admits a globally optimal solution comprised of an equivariant policy and a group-invariant scoring function. Motivated by this, we formulate the Group-Invariant Wasserstein dependency measure, which restricts the optimization to this symmetry-aware subspace without loss of optimality. Practically, we parameterize the scoring function using a group Fourier representation and define the intrinsic reward via the alignment of equivariant latent features, ensuring that the discovered skills generalize systematically under group transformations. Experiments on state-based and pixel-based locomotion benchmarks demonstrate that GISD achieves broader state-space coverage and improved efficiency in downstream task learning compared to a strong baseline.
- Abstract(参考訳): 教師なしスキル発見は、探索を改善し、下流のタスク学習を加速する行動プリミティブを取得することを目的としている。
しかし、既存のアプローチはしばしば物理環境の幾何学的対称性を無視し、冗長な振る舞いとサンプルの非効率性をもたらす。
これを解決するために,グループ構造をスキル発見の目的に明示的に組み込んだGISD(Group-Invariant Skill Discovery)を導入する。
群対称環境において、標準ワッサーシュタイン依存度は、同変ポリシーと群不変スコアリング関数からなる大域的最適解を認めることを証明する。
これを動機とする群不変ワッサーシュタイン依存性測度を定式化し、最適化を最適性を失うことなく、この対称性を意識した部分空間に制限する。
実際に,群フーリエ表現を用いてスコアリング関数をパラメータ化し,同変潜在特徴のアライメントによって本質的な報酬を定義することにより,グループ変換の下で,発見されたスキルが体系的に一般化されることを保証する。
状態ベースおよび画素ベースのロコモーションベンチマークの実験により、GISDは強力なベースラインと比較して、より広い状態空間のカバレッジを実現し、下流タスク学習の効率を向上することを示した。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments [10.122552307413711]
グループ対称性は強化学習(RL)に強力な誘導バイアスを与える
グループ対称性は強化学習(RL)に強力な誘導バイアスを与える
論文 参考訳(メタデータ) (2025-11-30T14:41:08Z) - Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - Equivariant Goal Conditioned Contrastive Reinforcement Learning [5.019456977535218]
Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。
等変制約を用いた潜在空間をさらに構造化する等変CRLを提案する。
我々のアプローチは、状態ベースと画像ベースの両方の設定において、さまざまなシミュレーションタスクにおいて、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-22T01:13:45Z) - Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - R2Det: Exploring Relaxed Rotation Equivariance in 2D object detection [26.05910177212846]
Group Equivariant Convolution (GConv) は、データにおける基礎となる対称性を探索し、パフォーマンスを向上させるためにモデルに権限を与える。
我々は、GConvと比較して4n$のパラメータが最小限に増大する新しいRelaxed Rotation-Equivariant GConv(R2GConv)を導入する。
R2GConvをベースとして,Relaxed Rotation-Equivariant Network (R2Net) をバックボーンとして提案し,2次元物体検出のためのRelaxed Rotation-Equivariant Object Detector (R2Det) を開発した。
論文 参考訳(メタデータ) (2024-08-21T16:32:03Z) - Mitigating Group Bias in Federated Learning for Heterogeneous Devices [1.181206257787103]
フェデレートラーニング(Federated Learning)は、分散エッジアプリケーションにおけるプライバシ保護モデルトレーニングアプローチとして登場している。
本研究は,プライバシを維持しながら,資源利用のオーバーヘッドを伴わずにグループバイアスを最小限に抑えるグループフェアFLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T16:53:48Z) - Adapting to Latent Subgroup Shifts via Concepts and Proxies [82.01141290360562]
最適ターゲット予測器は、ソースドメインでのみ利用できる概念とプロキシ変数の助けを借りて、非パラメトリックに識別可能であることを示す。
本研究では,データ生成プロセスに特有の潜在変数モデルを提案する。
論文 参考訳(メタデータ) (2022-12-21T18:30:22Z) - The Advantage of Conditional Meta-Learning for Biased Regularization and
Fine-Tuning [50.21341246243422]
バイアスレギュラー化と微調整は、最近の2つのメタラーニングアプローチである。
本稿では,条件付き関数マッピングタスクの側情報をメタパラメータベクトルに推論する条件付きメタラーニングを提案する。
次に、実際には同等の利点をもたらす凸メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T07:32:16Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。