論文の概要: Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.21416v1
- Date: Thu, 29 Jan 2026 08:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.004947
- Title: Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation
- Title(参考訳): タスク関連特徴のスポットライト:ロボットマニピュレーションにおける一般化のためのオブジェクト中心表現
- Authors: Alexandre Chapin, Bruno Machado, Emmanuel Dellandréa, Liming Chen,
- Abstract要約: SBOCR(Slot-Based Object-Centric Representations)は、密集した特徴を有限個のオブジェクトのような実体に分類することができる。
SBOCRは、動的で現実世界のロボット環境で効果的に一般化する視覚システムを設計するための有望な方向である。
- 参考スコア(独自算出の注目度): 41.66477383019748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.
- Abstract(参考訳): ロボット操作ポリシーの一般化能力は視覚表現の選択に大きく影響されている。
既存のアプローチは、通常、訓練済みエンコーダから抽出された表現に依存しており、大域的特徴(単一のプールベクターを介して全体像を要約する)と、最終エンコーダ層からのパッチワイド埋め込みを保持する高密度特徴(英語版)の2つの主要な特徴を使用する。
広く使われているが、両方の特徴型はタスク関連情報と無関係情報を組み合わせており、照明の変化、テクスチャの変化、気晴らしの存在といった分散シフト下での一般化が不十分である。
本研究では, Slot-Based Object-Centric Representations (SBOCR) という中間的構造的代替案について検討する。
この表現は、タスクを効率的に実行するのに十分な情報を保持しながら、ロボット操作ポリシーに提供されるノイズを自然に低減することができる。
我々は、シミュレーションされた実世界の操作タスクのスイートにおいて、中間スロットベースの表現に対して、大域的および高密度な表現をベンチマークする。
照明, テクスチャ, イントラクタの存在など, 様々な視覚条件下での一般化を評価した。
その結果,SBOCRをベースとした政策は,タスク固有の事前訓練を必要とせずに,一般化設定において,密でグローバルな表現に基づく政策よりも優れていた。
これらの知見は、SBOCRが動的で現実世界のロボット環境を効果的に一般化する視覚システムを設計する上で有望な方向であることを示唆している。
関連論文リスト
- Capturing Visual Environment Structure Correlates with Control Performance [62.69063991419694]
既存のプロキシメトリクスは、ビジュアル世界の狭い側面をキャプチャする表現能力に重点を置いている。
事前学習された視覚エンコーダが環境状態の復号化を支援するかを測定する。
この推定精度は、下流の政策性能と強く相関していることを示す。
論文 参考訳(メタデータ) (2026-02-04T18:59:12Z) - STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation [44.055446967139424]
STORMは軽量なオブジェクト中心適応モジュールで、ロボット操作のためのセマンティック・アウェアスロットで凍結した視覚基盤モデルを拡張する。
オブジェクト中心のスロットは、言語埋め込みを使った視覚-セマンティック事前訓練によって安定化され、下流操作ポリシーと共同で適応される。
実験によると、STORMは、凍結基盤モデル機能を直接使用したり、エンドツーエンドにオブジェクト中心の表現をトレーニングするよりも、視覚的障害への一般化を改善し、パフォーマンスを制御する。
論文 参考訳(メタデータ) (2026-01-28T08:46:04Z) - Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - Object-Centric Representations Improve Policy Generalization in Robot Manipulation [43.18545365968973]
我々は,オブジェクト中心表現(OCR)を,視覚入力を完了したエンティティの集合に分割する構造的な代替品として検討する。
我々は、シミュレーションおよび実世界の操作タスクのスイート全体にわたって、視覚的エンコーダ中心、グローバル、そして密集したメソッドをベンチマークする。
この結果から,OCRに基づく政策は,タスク固有の事前訓練を必要とせずに,一般化設定において,密接かつグローバルな表現よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2025-05-16T07:06:37Z) - DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [18.410329897882658]
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
DexGraspVLAは,言語誘導型汎用デキスタラスグルーピングにおける堅牢な一般化のための階層的フレームワークである。
論文 参考訳(メタデータ) (2025-02-28T09:57:20Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。