論文の概要: Object-Centric Representations Improve Policy Generalization in Robot Manipulation
- arxiv url: http://arxiv.org/abs/2505.11563v1
- Date: Fri, 16 May 2025 07:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.704041
- Title: Object-Centric Representations Improve Policy Generalization in Robot Manipulation
- Title(参考訳): オブジェクト中心表現はロボット操作におけるポリシーの一般化を改善する
- Authors: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen,
- Abstract要約: 我々は,オブジェクト中心表現(OCR)を,視覚入力を完了したエンティティの集合に分割する構造的な代替品として検討する。
我々は、シミュレーションおよび実世界の操作タスクのスイート全体にわたって、視覚的エンコーダ中心、グローバル、そして密集したメソッドをベンチマークする。
この結果から,OCRに基づく政策は,タスク固有の事前訓練を必要とせずに,一般化設定において,密接かつグローバルな表現よりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 43.18545365968973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual representations are central to the learning and generalization capabilities of robotic manipulation policies. While existing methods rely on global or dense features, such representations often entangle task-relevant and irrelevant scene information, limiting robustness under distribution shifts. In this work, we investigate object-centric representations (OCR) as a structured alternative that segments visual input into a finished set of entities, introducing inductive biases that align more naturally with manipulation tasks. We benchmark a range of visual encoders-object-centric, global and dense methods-across a suite of simulated and real-world manipulation tasks ranging from simple to complex, and evaluate their generalization under diverse visual conditions including changes in lighting, texture, and the presence of distractors. Our findings reveal that OCR-based policies outperform dense and global representations in generalization settings, even without task-specific pretraining. These insights suggest that OCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.
- Abstract(参考訳): 視覚表現は、ロボット操作ポリシーの学習と一般化の能力の中心である。
既存の手法はグローバルな特徴や高密度な特徴に依存しているが、そのような表現はしばしばタスク関連情報と無関係なシーン情報を絡み合わせ、分散シフトによるロバスト性を制限する。
本研究では,オブジェクト中心表現(OCR)を視覚入力を完了したエンティティの集合に分割する構造的な代替として検討し,操作タスクとより自然に整合する帰納的バイアスを導入する。
我々は,視覚的エンコーダ中心,大域的および密集的な手法を,単純から複雑まで多岐にわたるシミュレーションおよび実世界の操作タスク群にわたってベンチマークし,照明,テクスチャ,およびイントラクタの存在を含む様々な視覚的条件下でのそれらの一般化を評価する。
この結果から,OCRに基づく政策は,タスク固有の事前訓練を必要とせずに,一般化設定において,密接かつグローバルな表現よりも優れていたことが判明した。
これらの知見は、OCRが動的で現実世界のロボット環境において効果的に一般化する視覚システムを設計するための有望な方向であることを示唆している。
関連論文リスト
- Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - Disentangled Object-Centric Image Representation for Robotic Manipulation [6.775909411692767]
本研究では,対象物,障害物,ロボットの体現物に対する不整合表現を導入したオブジェクト中心のフレームワークであるDOCIRを提案する。
提案手法は,多目的環境における視覚的インプットから選択と配置のスキルを習得する上で,最先端のパフォーマンスに繋がることを示す。
論文 参考訳(メタデータ) (2025-03-14T16:33:48Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。