論文の概要: ConTraIRL: Factorized Contrastive Abstractions for Transferable IRL
- arxiv url: http://arxiv.org/abs/2606.03017v1
- Date: Tue, 02 Jun 2026 01:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.67968
- Title: ConTraIRL: Factorized Contrastive Abstractions for Transferable IRL
- Title(参考訳): ConTraIRL:Transferable IRLのための因子的コントラスト抽象化
- Authors: Yikang Gui, Bikramjit Banerjee, Prashant Doshi,
- Abstract要約: 逆強化学習(IRL)における逆転は、ポリシーが環境力学とタスク目標の見当たらない組み合わせに一般化する必要がある場合、信頼できない。
本稿では,これら2因子の非結合型潜在表現を学習することにより,構成的報酬伝達を可能にするフレームワークであるConTraIRL(Facterized Contrastive Abstractions for Transferable IRL)を提案する。
- 参考スコア(独自算出の注目度): 2.4272854858186785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward transfer in Inverse Reinforcement Learning (IRL) is unreliable when policies must generalize to unseen combinations of environment dynamics and task goals. We propose Factorized Contrastive Abstractions for Transferable IRL (ConTraIRL), a framework that enables compositional reward transfer by learning decoupled latent representations of these two factors. ConTraIRL uses a dual-encoder architecture that maps observations into separate dynamics and goal latent spaces, trained with a dual contrastive objective. Temporal alignment encourages the dynamics encoder to learn goal-invariant structure, while the goal encoder captures dynamics-invariant features. This factorization supports reward inference under recombined dynamics-goal settings. Experiments on continuous control benchmarks demonstrate effective few-shot transfer to unseen dynamics-goal pairings, improving sample efficiency and reward recovery over transfer IRL baselines.
- Abstract(参考訳): 逆強化学習(IRL)における逆転は、ポリシーが環境力学とタスク目標の見当たらない組み合わせに一般化する必要がある場合、信頼できない。
本稿では,これら2因子の非結合型潜在表現を学習することにより,構成的報酬伝達を可能にするフレームワークであるConTraIRL(Facterized Contrastive Abstractions for Transferable IRL)を提案する。
ConTraIRLは双対エンコーダアーキテクチャを用いて、観測結果を異なるダイナミクスと目標潜在空間にマッピングし、二重コントラストの目的で訓練する。
時間的アライメントは、ダイナミックスエンコーダにゴール不変構造を学習させ、ゴールエンコーダはダイナミックス不変の機能をキャプチャする。
この分解は、再結合された動的ゴール設定下での報酬推論をサポートする。
連続制御ベンチマークの実験は、目に見えないダイナミックスとゴールのペアリングに効果的に数発のショット転送を示し、サンプル効率を改善し、転送IRLベースラインよりも報酬を回収する。
関連論文リスト
- Dual-branch Distilled Transformer for Efficient Asymmetric UAV Tracking [34.13651852483772]
EATrackは教師が指導するUAV追跡のための二重分岐蒸留戦略である。
生徒に強い対象表現を学習させることで、表現の弱さを補う。
5つのUAVベンチマークの実験では、EATrackは精度と速度のバランスが良好であることが示されている。
論文 参考訳(メタデータ) (2026-05-27T06:20:13Z) - Uni-Synergy: Bridging Understanding and Generation for Personalized Reasoning via Co-operative Reinforcement Learning [56.99010101756807]
我々は、パーソナライズされた理解と生成を共同で最適化する、エンドツーエンドの強化学習フレームワークSync-R1を提案する。
Sync-R1はパーソナライズされた理解を可能にしてコンテンツ生成をガイドし、生成した品質は相互に理解を洗練させる。
また,低電位トラジェクタを適応的にフィルタして勾配分散を低減し,収束を加速する動的グループスケーリング(DGS)も導入する。
実験結果から,Sync-R1は高度なクロスタスク推論とロバストなパーソナライゼーションを実現していることがわかった。
論文 参考訳(メタデータ) (2026-05-11T12:18:26Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Generalizing from References using a Multi-Task Reference and Goal-Driven RL Framework [12.131501436717969]
本研究では,人間の動作からヒューマノイドの動作を学習するためのマルチタスク強化学習フレームワークを提案する。
単一の目標条件付きポリシーは、同じ観測空間と行動空間を共有する2つのタスクで共同で訓練される。
これらの目的を共通の定式化内で協調最適化することにより、このポリシーは、密集した基準監督から構造化された人間のような運動スキルを取得する。
論文 参考訳(メタデータ) (2026-02-23T21:25:06Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - QuadKAN: KAN-Enhanced Quadruped Motion Control via End-to-End Reinforcement Learning [2.26464274357758]
我々は、強化学習(RL)による視覚誘導四足歩行制御に対処する。
Kolmogorov-Arnold Networks (KAN) でインスタンス化されたクロスモーダルポリシーである QuadKAN を提案する。
以上の結果から,QuadKANは最新技術(SOTA)ベースラインよりも一貫して高いリターン,より大きな距離,衝突の少ないことが分かる。
論文 参考訳(メタデータ) (2025-08-26T16:05:32Z) - Stackelberg Coupling of Online Representation Learning and Reinforcement Learning [45.70357546589222]
SCORERは,表現とQラーニングを階層型ゲームにおける2つの戦略エージェントとみなす,価値に基づくRLのためのフレームワークである。
提案するSCORERフレームワークは, 2時間スケールのアルゴリズムで解を近似する二段階最適化問題に導かれる。
論文 参考訳(メタデータ) (2025-08-10T18:36:54Z) - Equivariant Goal Conditioned Contrastive Reinforcement Learning [5.019456977535218]
Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。
等変制約を用いた潜在空間をさらに構造化する等変CRLを提案する。
我々のアプローチは、状態ベースと画像ベースの両方の設定において、さまざまなシミュレーションタスクにおいて、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-22T01:13:45Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。