論文の概要: BEACON: Cross-Domain Co-Training of Generative Robot Policies via Best-Effort Adaptation
- arxiv url: http://arxiv.org/abs/2605.08571v2
- Date: Tue, 12 May 2026 07:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.24028
- Title: BEACON: Cross-Domain Co-Training of Generative Robot Policies via Best-Effort Adaptation
- Title(参考訳): BEACON:Best-Effort Adaptationによる生成ロボット政策のクロスドメイン共同開発
- Authors: Antong Zhang, Han Qi, Heng Yang,
- Abstract要約: BEACONは、重複ドメインのコトレーニングを、不一致を意識した重要/重み付け問題として論じている。
我々は、スケーラブルなインスタンスレベルの不一致推定器を開発し、ポリシーと重みの更新を交互に行い、マルチソース拡張を行う。
- 参考スコア(独自算出の注目度): 5.486944576729869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce BEACON--Best-Effort Adaptation for Cross-Domain Co-Training--a theory-driven framework for training generative robot policies with abundant source demonstrations and limited target demonstrations. BEACON casts cross-domain co-training as a discrepancy-aware importance-reweighting problem, jointly learning a diffusion-based visuomotor policy and per-sample source weights that minimize an objective informed by target-domain generalization guarantees. To make best-effort adaptation practical for high-dimensional sequence policies, we develop scalable instance-level discrepancy estimators, stochastic alternating updates for policy and weights, and a multi-source extension that balances heterogeneous source domains. Across sim-to-sim, sim-to-real, and multi-source manipulation settings, BEACON improves robustness and data efficiency over target-only, fixed-ratio co-training, and feature-alignment baselines. Importantly, even without an explicit alignment objective, BEACON achieves feature alignment as an implicit result of discrepancy-aware cross-domain co-training.
- Abstract(参考訳): 本稿では,BEACON-Best-Effort Adaptation for Cross-Domain Co-Trainingを紹介する。
BEACONは、拡散に基づくビジュモータポリシーとサンプル単位の重み付けを共同で学習し、目標領域の一般化保証によって得られる目的を最小化する。
高次元シーケンスポリシーのベストプラクティスを実践するために、スケーラブルなインスタンスレベルの離散性推定器、ポリシーと重みの確率的交互更新、異種ソースドメインのバランスをとるマルチソース拡張を開発する。
sim-to-sim、sim-to-real、マルチソース操作設定全体にわたって、BEACONはターゲットのみ、固定比率のコトレーニング、特徴調整ベースラインよりも堅牢性とデータ効率を改善する。
重要なことは、明示的なアライメントの目的がなくても、BEACONは、不一致を認識したクロスドメインのコトレーニングの暗黙の結果として機能アライメントを達成する。
関連論文リスト
- FeDecider: An LLM-Based Framework for Federated Cross-Domain Recommendation [75.50721642765994]
大規模言語モデル(LLM)ベースのレコメンデーションモデルは、素晴らしいパフォーマンスを示している。
We propose a LLM-based framework for Federated cross- domain recommendation, FeDecider。
多様なデータセットにわたる大規模な実験により、提案したFeDeciderの有効性が検証された。
論文 参考訳(メタデータ) (2026-02-17T21:42:28Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - In-Context Policy Adaptation via Cross-Domain Skill Diffusion [37.727612185480986]
本研究では,長期マルチタスク環境を対象としたコンテキスト内ポリシー適応フレームワークを提案する。
このフレームワークは、スキルベースの強化学習ポリシーを、多様なターゲットドメインに迅速に適用することを可能にする。
本フレームワークは,限られた対象領域データ条件下での政策適応性能に優れることを示す。
論文 参考訳(メタデータ) (2025-09-04T06:55:38Z) - GIST: Cross-Domain Click-Through Rate Prediction via Guided Content-Behavior Distillation [8.796126922682554]
クロスドメインクリックスルーレート予測は、オンライン広告システムにおけるデータ空間とコールドスタートの問題に対処することを目的としている。
既存の方法の多くは、この転送を容易にするために重複したユーザーに依存している。
GISTは、ソースとターゲットドメインのトレーニングプロセスを分離するクロスドメインライフロングシーケンスモデルである。
論文 参考訳(メタデータ) (2025-07-07T15:51:27Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Adaptive Semantic Consistency for Cross-domain Few-shot Classification [27.176106714652327]
クロスドメイン・ショット分類(CD-FSC)は、いくつかのサンプルを用いて新規なターゲットクラスを特定することを目的としている。
本稿では,ドメイン間の堅牢性を向上する,シンプルなプラグアンドプレイ適応セマンティック一貫性フレームワークを提案する。
提案したASCは、ソースドメインの知識を明示的に伝達することで、モデルがターゲットドメインに過度に適合しないようにする。
論文 参考訳(メタデータ) (2023-08-01T15:37:19Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。