論文の概要: Beyond Pixels: Learning Invariant Rewards for Real-World Robotics From a Few Demonstrations
- arxiv url: http://arxiv.org/abs/2605.22123v1
- Date: Thu, 21 May 2026 07:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.150538
- Title: Beyond Pixels: Learning Invariant Rewards for Real-World Robotics From a Few Demonstrations
- Title(参考訳): 実世界のロボティクスの逆転を、ほんの少しのデモから学ぶ
- Authors: Tengye Xu, Yangting Sun, Ziju Shen, Guanqi Chen, Zhen Fu, Chen yizhou, Hua Chen, Jia Pan,
- Abstract要約: オープンワールド操作問題では、異なるオブジェクトインスタンス、位置、カメラ視点を通じて、多数の変種に単一のタスクが現れる。
最近の視覚に基づく報酬モデルでは、特定の画素分布を記憶し、訓練条件を超えて一般化することができない傾向にある。
本稿では,5つの実演から不変なシンボル報酬関数を学習するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.30585150107243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing reward functions that generalize beyond controlled laboratory settings remains a fundamental challenge in reinforcement learning for robotics. In open-world manipulation problems, a single task can appear in numerous variants through different object instances, positions, and camera viewpoints. Recent vision-based reward models tend to memorize specific pixel distributions and fail to generalize beyond their training conditions. To address this, we propose a framework that learns invariant symbolic reward functions from as few as five demonstrations. The insight is to shift from visual feature-fitting to the discovery of behavioral invariants: task-level properties that remain constant across diverse visual instantiations. The framework has two coupled components: a structural reward formulation that encodes task-level strategies and physical constraints while preserving optimal policy invariance, and a hybrid symbolic-numerical procedure that distills these invariants from demonstrations without online interaction. Experiments on eight Meta-World tasks and three Franka manipulation tasks demonstrate that our method achieves stronger process alignment and policy rollout ranking abilities compared to baselines, accelerating downstream policy learning. Three real-world out-of-distribution experiments further show that the same learned reward generalizes zero-shot to position, viewpoint, and object variations, enabling a single reward representation to be reused across diverse task variants in practice.
- Abstract(参考訳): ロボット工学の強化学習において、制御された実験室設定を超えて一般化する報酬関数を設計することは、依然として根本的な課題である。
オープンワールド操作問題では、異なるオブジェクトインスタンス、位置、カメラ視点を通じて、多数の変種に単一のタスクが現れる。
最近の視覚に基づく報酬モデルでは、特定の画素分布を記憶し、訓練条件を超えて一般化することができない傾向にある。
そこで本研究では,5つの実演から不変なシンボル報酬関数を学習するフレームワークを提案する。
その洞察は、視覚的特徴適合から行動不変性の発見への移行である。
このフレームワークには、最適政策不変性を維持しながらタスクレベルの戦略と物理的制約を符号化する構造的報酬の定式化と、これらの不変性をオンラインの相互作用のないデモンストレーションから蒸留するハイブリッドな記号的数値的手順の2つの組み合わせがある。
8つのMeta-Worldタスクと3つのFranka操作タスクの実験は、我々の手法がベースラインよりも強力なプロセスアライメントとポリシーロールアウトランキング能力を実現し、下流ポリシー学習を加速することを示した。
3つの実世界のアウト・オブ・ディストリビューション実験により、同じ学習された報酬がゼロショットから位置、視点、オブジェクトのバリエーションを一般化し、単一の報酬表現を実際に様々なタスクの変種で再利用できることが示されている。
関連論文リスト
- Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning [57.88781687419521]
複数の同期カメラパースペクティブを使用して、各専門家軌跡から擬似演示を生成する。
シミュレーションと実世界の操作タスクの実験は、データ効率と一般化の著しい向上を示している。
以上の結果から,カメラビューのスケーリングは,模倣学習のための実用的でスケーラブルなソリューションであることが示唆された。
論文 参考訳(メタデータ) (2026-04-01T07:00:44Z) - Learning to Act Robustly with View-Invariant Latent Actions [8.446887947386559]
視覚に基づくロボットポリシーは、視界不変の視覚表現の必要性を強調し、小さな視点の変化に苦しむことが多い。
本研究では,ビュー不変遅延行動 (VILA) を提案する。これは,物理力学に基づくビュー不変表現を学習するために,トラジェクトリ間で遷移パターンをキャプチャする潜在動作をモデル化する。
シミュレーションと実世界の双方の実験から、VILAベースのポリシーは見当たらない視点に効果的に一般化し、新しいタスクにうまく移行することが示された。
論文 参考訳(メタデータ) (2026-01-06T13:14:01Z) - CORE: Code-based Inverse Self-Training Framework with Graph Expansion for Virtual Agents [69.88668127604875]
グラフ拡張を用いたコードベースの逆自己学習フレームワークであるCOREを提案する。
COREは模倣と探索を橋渡しし、行動の多様性を促進する新しいトレーニングフレームワークを提供する。
WebとAndroidプラットフォームの実験では、COREは全体的なパフォーマンスと一般化の両方を著しく改善している。
論文 参考訳(メタデータ) (2026-01-05T15:24:05Z) - Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。
我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。
この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文 参考訳(メタデータ) (2025-02-12T18:57:22Z) - One-shot Imitation in a Non-Stationary Environment via Multi-Modal Skill [6.294766893350108]
本稿では,ワンショット模倣とゼロショット適応が可能なスキルベース模倣学習フレームワークを提案する。
視覚言語モデルを利用して、オフラインのビデオデータセットから設定したセマンティックスキルを学習する。
拡張された多段階のメタワールドタスクに対して,様々なワンショットの模倣シナリオでフレームワークを評価した。
論文 参考訳(メタデータ) (2024-02-13T11:01:52Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Plug and Play, Model-Based Reinforcement Learning [60.813074750879615]
我々は、既知のオブジェクトクラスから新しいオブジェクトをゼロショットで統合できるオブジェクトベースの表現を導入する。
これは、グローバル遷移力学を局所遷移関数の和として表現することで達成される。
実験により, 様々なセットアップにおいて, サンプル効率が達成できることが示された。
論文 参考訳(メタデータ) (2021-08-20T01:20:15Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。