Fugu-MT 論文翻訳(概要): Learning Adaptive Cross-Embodiment Visuomotor Policy with Contrastive Prompt Orchestration

論文の概要: Learning Adaptive Cross-Embodiment Visuomotor Policy with Contrastive Prompt Orchestration

arxiv url: http://arxiv.org/abs/2602.01040v1
Date: Sun, 01 Feb 2026 06:01:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.05658
Title: Learning Adaptive Cross-Embodiment Visuomotor Policy with Contrastive Prompt Orchestration
Title（参考訳）: コントラスト的プロンプトオーケストレーションを用いた適応的クロス・エボディメント・ビズモータ政策の学習
Authors: Yuhang Zhang, Chao Yan, Jiaxi Yu, Jiaping Xiao, Mir Feroskhan,
Abstract要約: 本稿では,ビズモータ政策を学習するための新しいアプローチであるContrAstive Prompt Orchestration (CAPO)を提案する。 CAPOは対照的なプロンプト学習と適応的なプロンプトオーケストレーションを統合している。サンプル効率と性能において最先端のベースラインを著しく上回る。
参考スコア（独自算出の注目度）: 9.203040250727886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning adaptive visuomotor policies for embodied agents remains a formidable challenge, particularly when facing cross-embodiment variations such as diverse sensor configurations and dynamic properties. Conventional learning approaches often struggle to separate task-relevant features from domain-specific variations (e.g., lighting, field-of-view, and rotation), leading to poor sample efficiency and catastrophic failure in unseen environments. To bridge this gap, we propose ContrAstive Prompt Orchestration (CAPO), a novel approach for learning visuomotor policies that integrates contrastive prompt learning and adaptive prompt orchestration. For prompt learning, we devise a hybrid contrastive learning strategy that integrates visual, temporal action, and text objectives to establish a pool of learnable prompts, where each prompt induces a visual representation encapsulating fine-grained domain factors. Based on these learned prompts, we introduce an adaptive prompt orchestration mechanism that dynamically aggregates these prompts conditioned on current observations. This enables the agent to adaptively construct optimal state representations by identifying dominant domain factors instantaneously. Consequently, the policy optimization is effectively shielded from irrelevant interference, preventing the common issue of overfitting to source domains. Extensive experiments demonstrate that CAPO significantly outperforms state-of-the-art baselines in sample efficiency and asymptotic performance. Crucially, it exhibits superior zero-shot adaptation across unseen target domains characterized by drastic environmental (e.g., illumination) and physical shifts (e.g., field-of-view and rotation), validating its effectiveness as a viable solution for cross-embodiment visuomotor policy adaptation.
Abstract（参考訳）: エンボディエージェントに対する適応的ビズモータポリシーの学習は、特に多様なセンサー構成や動的特性といった異種体間変動に直面している場合、依然として困難な課題である。従来の学習手法では、タスク関連の特徴をドメイン固有のバリエーション(例えば、照明、視野、回転)から切り離すことに苦労することが多く、サンプル効率の低下や、目に見えない環境における破滅的な失敗につながる。このギャップを埋めるために,コントラッシブ・プロンプト・オーケストレーション(CAPO)を提案する。素早い学習のために,視覚的,時間的行動,テキスト的目的を統合したハイブリッドコントラスト学習戦略を考案し,各プロンプトが細かなドメイン要素をカプセル化した視覚表現を誘導する学習可能なプロンプトのプールを確立する。これらの学習プロンプトに基づいて、現在の観測で条件付けられたこれらのプロンプトを動的に集約する適応的なプロンプトオーケストレーション機構を導入する。これによりエージェントは、支配的なドメイン要素を瞬時に識別することで、最適な状態表現を適応的に構築できる。その結果、ポリシー最適化は、無関係な干渉から効果的に保護され、ソースドメインへのオーバーフィッティングの一般的な問題を防ぐことができる。大規模な実験によりCAPOはサンプル効率と漸近性能において最先端のベースラインを著しく上回ることが示された。重要な点として、これは急激な環境(例えば、照明)と物理的シフト(例えば、視野と回転)を特徴とする、目に見えない標的領域にまたがる優れたゼロショット適応を示す。

関連論文リスト

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning [23.916253226597956]
深層強化学習(Dep Reinforcement Learning, DRL)は、まだ実用上重要な問題に悩まされている。最近の研究では、これらの課題に対処するために、LLM(Large Language Models)とシンボリックプランニングを統合することが期待されている。セマンティック駆動のスキル再利用とリアルタイム制約モニタリングを可能にする,新しいLCM駆動クローズドループフレームワークを提案する。
論文参考訳（メタデータ） (2026-03-02T05:54:02Z)
AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models [54.56296715999545]
人間のフィードバックからの強化学習は、拡散とフローモデルの整合性を示す。 GRPOのような政策最適化手法は、非効率で静的なサンプリング戦略に悩まされている。適応エントロピー誘導政策最適化(Adaptive Entropy-Guided Policy Optimization, AEGPO)を提案する。
論文参考訳（メタデータ） (2026-02-06T16:09:50Z)
PAGen: Phase-guided Amplitude Generation for Domain-adaptive Object Detection [15.55359477953804]
教師なしドメイン適応(UDA)は、さまざまな環境にまたがるニューラルネットワークの展開を大いに促進する。本稿では、周波数領域における画像スタイルの適応を学習し、ソース領域とターゲット領域との差を小さくする、シンプルで効果的なUDA手法を提案する。
論文参考訳（メタデータ） (2025-11-27T02:22:37Z)
SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment [7.446137164545049]
選択フローアライメント(Selective Flow Alignment、SeFA)は、効率的かつ正確なビジュモータポリシー学習フレームワークである。 SeFAはこの課題を選択的フローアライメント戦略によって解決する。推論遅延を98%以上削減しながら、精度と堅牢性を向上する。
論文参考訳（メタデータ） (2025-11-11T18:59:39Z)
Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文参考訳（メタデータ） (2025-11-06T22:24:35Z)
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents [6.402396836189286]
本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T06:53:00Z)
Randomized Adversarial Style Perturbations for Domain Generalization [49.888364462991234]
本稿では,RASP(Randomized Adversarial Style Perturbation)と呼ばれる新しい領域一般化手法を提案する。提案アルゴリズムは, ランダムに選択されたクラスに対して, 対角方向の特徴のスタイルを乱し, 予期せぬ対象領域で観測される予期せぬスタイルに誤解されないよう, モデルを学習させる。提案アルゴリズムは,様々なベンチマークによる広範な実験により評価され,特に大規模ベンチマークにおいて,領域一般化性能が向上することを示す。
論文参考訳（メタデータ） (2023-04-04T17:07:06Z)
Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文参考訳（メタデータ） (2021-12-13T13:19:45Z)
Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文参考訳（メタデータ） (2020-01-14T17:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。