論文の概要: Pixel2Catch: Multi-Agent Sim-to-Real Transfer for Agile Manipulation with a Single RGB Camera
- arxiv url: http://arxiv.org/abs/2602.22733v1
- Date: Thu, 26 Feb 2026 08:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.730751
- Title: Pixel2Catch: Multi-Agent Sim-to-Real Transfer for Agile Manipulation with a Single RGB Camera
- Title(参考訳): Pixel2Catch: 単一RGBカメラによるアジャイル操作のためのマルチエージェントのシミュレーショナルトランスファー
- Authors: Seongyong Kim, Junhyeon Cho, Kang-Won Lee, Soo-Chul Lim,
- Abstract要約: 本研究は、単一のRGB画像から抽出した画素レベルの視覚情報を用いて物体の動きを認識する新しいアプローチに焦点を当てる。
多指ハンドを備えたロボットアームによる高DoFシステムにおいて安定した学習を実現するため、異種多エージェント強化学習フレームワークを設計する。
各エージェントは、ロール固有の観察と報酬を使用して協調的に訓練され、学習されたポリシーはシミュレーションから実世界に移される。
- 参考スコア(独自算出の注目度): 3.219880761967806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To catch a thrown object, a robot must be able to perceive the object's motion and generate control actions in a timely manner. Rather than explicitly estimating the object's 3D position, this work focuses on a novel approach that recognizes object motion using pixel-level visual information extracted from a single RGB image. Such visual cues capture changes in the object's position and scale, allowing the policy to reason about the object's motion. Furthermore, to achieve stable learning in a high-DoF system composed of a robot arm equipped with a multi-fingered hand, we design a heterogeneous multi-agent reinforcement learning framework that defines the arm and hand as independent agents with distinct roles. Each agent is trained cooperatively using role-specific observations and rewards, and the learned policies are successfully transferred from simulation to the real world.
- Abstract(参考訳): 投げられた物体をキャッチするには、ロボットは物体の動きを知覚し、タイムリーに制御動作を生成する必要がある。
この研究は、対象の3D位置を明示的に推定するのではなく、単一のRGB画像から抽出されたピクセルレベルの視覚情報を用いて物体の動きを認識する新しいアプローチに焦点を当てる。
このような視覚的な手がかりは、オブジェクトの位置とスケールの変化を捉え、ポリシーがオブジェクトの動きを推論することを可能にする。
さらに,多指ハンドを備えたロボットアームを用いた高DoFシステムにおいて,安定学習を実現するために,腕と手を異なる役割を持つ独立したエージェントとして定義する異種多エージェント強化学習フレームワークを設計する。
各エージェントは、ロール固有の観察と報酬を使用して協調的に訓練され、学習されたポリシーはシミュレーションから実世界に移される。
関連論文リスト
- OCRA: Object-Centric Learning with 3D and Tactile Priors for Human-to-Robot Action Transfer [84.22494391514066]
OCRAはビデオベースのヒューマン・ロボット・アクション転送のためのフレームワークである。
人間のデモビデオから直接学習し、堅牢な操作を可能にする。
論文 参考訳(メタデータ) (2026-03-15T14:31:03Z) - ArtReg: Visuo-Tactile based Pose Tracking and Manipulation of Unseen Articulated Objects [2.9793019246605676]
視認できない物体の視触覚に基づく追跡のための新しい手法を提案する。
提案手法は,無意味なカルマンフィルタの定式化において,ビジュオ触点雲を統合する。
我々は,実際のロボット実験を通じて,様々な種類の未知物体に対するアプローチを広く評価してきた。
論文 参考訳(メタデータ) (2025-11-09T13:30:51Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation [4.7246285569677315]
我々はSim-to-Real Dense Object Nets(SRDONs)という,オブジェクトを適切な表現で理解するだけでなく,シミュレートされた実データをピクセル整合性を持った統一された特徴空間にマップする,高密度オブジェクト記述子を提案する。
本研究では,事前学習したSRDONが実世界の訓練をゼロにした各種ロボット作業において,見えない物体や見えない視覚環境の性能を著しく向上させる実験を行った。
論文 参考訳(メタデータ) (2023-04-18T02:28:55Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - MoreFusion: Multi-object Reasoning for 6D Pose Estimation from
Volumetric Fusion [19.034317851914725]
本稿では,複数の既知の物体の接触と隠蔽の正確なポーズを,リアルタイムな多視点視から推定するシステムを提案する。
提案手法は,1枚のRGB-Dビューからの3Dオブジェクトのポーズ提案を行い,カメラが移動すると,複数のビューからのポーズ推定と非パラメトリック占有情報を蓄積する。
提案手法の精度とロバスト性を2つのオブジェクトデータセット(YCB-Video)で実験的に検証する。
論文 参考訳(メタデータ) (2020-04-09T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。