論文の概要: Object-Centric Action-Enhanced Representations for Robot Visuo-Motor Policy Learning
- arxiv url: http://arxiv.org/abs/2505.20962v1
- Date: Tue, 27 May 2025 09:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.559904
- Title: Object-Centric Action-Enhanced Representations for Robot Visuo-Motor Policy Learning
- Title(参考訳): ロボットビズーモータポリシー学習のためのオブジェクト中心行動強調表現
- Authors: Nikos Giannakakis, Argyris Manetas, Panagiotis P. Filntisis, Petros Maragos, George Retsinas,
- Abstract要約: 本稿では,意味的セグメンテーションと視覚表現生成を結合的に行うオブジェクト中心エンコーダを提案する。
これを実現するために、Slot Attentionメカニズムを活用し、大規模なドメイン外のデータセットで事前訓練されたSOLVモデルを使用する。
我々は、ドメイン外のデータセットで事前トレーニングされたモデルを活用することが、このプロセスの恩恵となり、人間のアクションを描写したデータセットの微調整により、パフォーマンスが大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 21.142247150423863
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning visual representations from observing actions to benefit robot visuo-motor policy generation is a promising direction that closely resembles human cognitive function and perception. Motivated by this, and further inspired by psychological theories suggesting that humans process scenes in an object-based fashion, we propose an object-centric encoder that performs semantic segmentation and visual representation generation in a coupled manner, unlike other works, which treat these as separate processes. To achieve this, we leverage the Slot Attention mechanism and use the SOLV model, pretrained in large out-of-domain datasets, to bootstrap fine-tuning on human action video data. Through simulated robotic tasks, we demonstrate that visual representations can enhance reinforcement and imitation learning training, highlighting the effectiveness of our integrated approach for semantic segmentation and encoding. Furthermore, we show that exploiting models pretrained on out-of-domain datasets can benefit this process, and that fine-tuning on datasets depicting human actions -- although still out-of-domain -- , can significantly improve performance due to close alignment with robotic tasks. These findings show the capability to reduce reliance on annotated or robot-specific action datasets and the potential to build on existing visual encoders to accelerate training and improve generalizability.
- Abstract(参考訳): ロボットビジュオモチベーション生成を支援するために、観察行動から視覚表現を学ぶことは、人間の認知機能や知覚によく似た、有望な方向である。
そこで本研究では,これらを別プロセスとして扱う他の研究とは異なり,意味的セグメンテーションと視覚的表現生成を協調的に行うオブジェクト中心エンコーダを提案する。
そこで我々は、Slot Attentionメカニズムを活用して、大規模なドメイン外のデータセットで事前訓練されたSOLVモデルを用いて、人間のアクションビデオデータの微調整をブートストラップする。
シミュレーションロボットタスクにより、視覚表現は強化と模倣学習の訓練を強化し、セマンティックセグメンテーションとエンコーディングのための統合されたアプローチの有効性を強調した。
さらに、ドメイン外のデータセットで事前トレーニングされたモデルを活用することで、このプロセスの恩恵を受けることができ、人間のアクションを描写したデータセットの微調整が、まだドメイン外であるにも関わらず、ロボットタスクとの密接な連携により、パフォーマンスが大幅に向上することを示した。
これらの結果は、アノテーションやロボット固有のアクションデータセットへの依存を減らす能力と、既存のビジュアルエンコーダを使ってトレーニングを加速し、一般化性を向上させる能力を示している。
関連論文リスト
- Disentangled Object-Centric Image Representation for Robotic Manipulation [6.775909411692767]
本研究では,対象物,障害物,ロボットの体現物に対する不整合表現を導入したオブジェクト中心のフレームワークであるDOCIRを提案する。
提案手法は,多目的環境における視覚的インプットから選択と配置のスキルを習得する上で,最先端のパフォーマンスに繋がることを示す。
論文 参考訳(メタデータ) (2025-03-14T16:33:48Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。