論文の概要: PALM: Enhanced Generalizability for Local Visuomotor Policies via Perception Alignment
- arxiv url: http://arxiv.org/abs/2601.19514v1
- Date: Tue, 27 Jan 2026 11:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 05:31:08.480995
- Title: PALM: Enhanced Generalizability for Local Visuomotor Policies via Perception Alignment
- Title(参考訳): PALM:パーセプションアライメントによる局所的ビジュモータ政策の一般化性の向上
- Authors: Ruiyu Wang, Zheyu Zhuang, Danica Kragic, Florian T. Pokorny,
- Abstract要約: PALM (Perception Alignment for Local Manipulation) は、一般化、ワークスペースシフト、視点変化、異体間移動に対処する。
Palmerは、操作ポリシーを粗いグローバルコンポーネントときめ細かいアクションのためのローカルポリシーにモジュール化する。
実験の結果、PALMはOOD性能を8%、現実世界では24%に制限し、ベースラインでは45%、ベースラインでは77%に制限した。
- 参考スコア(独自算出の注目度): 18.02599913118209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing beyond the training domain in image-based behavior cloning remains challenging. Existing methods address individual axes of generalization, workspace shifts, viewpoint changes, and cross-embodiment transfer, yet they are typically developed in isolation and often rely on complex pipelines. We introduce PALM (Perception Alignment for Local Manipulation), which leverages the invariance of local action distributions between out-of-distribution (OOD) and demonstrated domains to address these OOD shifts concurrently, without additional input modalities, model changes, or data collection. PALM modularizes the manipulation policy into coarse global components and a local policy for fine-grained actions. We reduce the discrepancy between in-domain and OOD inputs at the local policy level by enforcing local visual focus and consistent proprioceptive representation, allowing the policy to retrieve invariant local actions under OOD conditions. Experiments show that PALM limits OOD performance drops to 8% in simulation and 24% in the real world, compared to 45% and 77% for baselines.
- Abstract(参考訳): 画像に基づく行動クローンのトレーニング領域を超えて一般化することは、依然として難しい。
既存の手法は、一般化、ワークスペースシフト、視点変化、異端移動といった個々の軸に対処するが、通常は独立して開発され、複雑なパイプラインに依存することが多い。
PALM(Perception Alignment for Local Manipulation)を導入し,OODシフトに同時に対処するためのドメインを,追加の入力モダリティやモデル変更,データ収集を伴わずに実装した。
PALMは、操作ポリシーを粗いグローバルコンポーネントにモジュール化し、きめ細かいアクションのためのローカルポリシーを提供する。
我々は、局所的な視覚的焦点と一貫した受容的表現を強制することにより、ドメイン内のOOD入力とOOD入力との差を小さくし、OOD条件下での不変なローカルアクションの検索を可能にする。
実験の結果、PALMはOOD性能を8%、現実世界では24%に制限し、ベースラインでは45%、ベースラインでは77%に制限した。
関連論文リスト
- Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - Partial Action Replacement: Tackling Distribution Shift in Offline MARL [11.861550409939818]
オフラインマルチエージェント強化学習(MARL)は、アウト・オブ・ディストリビューション・ジョイント・アクションを評価することの難しさによって著しく妨げられている。
我々は、OOD問題を緩和し、異なるPAR戦略を動的に重み付けするために、SPaCQL(Soft-Partial conservative Q-Learning)を開発した。
また,SPaCQLは不確実性インフォームドウェイトを用いた分散シフトに適応的に対応していることを示す。
論文 参考訳(メタデータ) (2025-11-10T20:56:58Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning [1.7205106391379026]
近年の拡散政策における状態再構成特徴学習を取り入れた新しい手法を提案する。
本手法は,OOD状態による分散シフトを軽減するために,一般化可能な状態表現の学習を促進する。
論文 参考訳(メタデータ) (2023-07-10T17:34:23Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement
Learning with Domain Randomization [10.789649934346004]
循環政策蒸留法(CPD)という試料効率の高い手法を提案する。
CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。
学習された全ての地域政策は、シム・トゥ・リアル・トランスファーのグローバル・ポリシーに蒸留される。
論文 参考訳(メタデータ) (2022-07-29T09:22:53Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Fishr: Invariant Gradient Variances for Out-of-distribution
Generalization [98.40583494166314]
フィッシャーは、損失関数の勾配の空間における領域不変性を強制する学習スキームである。
フィッシャーはこの損失についてフィッシャー・インフォメーションやヘッセンと密接な関係を示している。
特に、FishrはDomainBedベンチマークのテクニックの状態を改善し、経験的リスク最小化よりも大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-07T08:36:09Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。