論文の概要: EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
- arxiv url: http://arxiv.org/abs/2602.18071v1
- Date: Fri, 20 Feb 2026 08:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.591932
- Title: EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
- Title(参考訳): EgoPush: 移動ロボットのためのエンド・ツー・エンドのエゴセントリックなマルチオブジェクト再構成
- Authors: Boyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng,
- Abstract要約: EgoPushは、エゴセントリックで知覚駆動型再配置を可能にするポリシー学習フレームワークである。
EgoPushは、エンド・ツー・エンドのRLベースラインを成功率で大幅に上回っていることを示す。
また、実世界のモバイルプラットフォーム上で、ゼロショットのsim-to-real転送を実証する。
- 参考スコア(独自算出の注目度): 13.858983945750081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.
- Abstract(参考訳): 人間は、エゴセントリックな知覚を用いて、粗い環境の中でオブジェクトを並べ替え、グローバルな座標なしでオクルージョンをナビゲートすることができる。
この能力に触発されて,単焦点カメラを用いた移動ロボットの長距離多目的非包括的再配置について検討した。
EgoPushは、ダイナミックなシーンでしばしば失敗する、明示的なグローバルな状態推定に頼ることなく、エゴセントリックで知覚駆動的なアレンジメントを可能にする、ポリシー学習フレームワークである。
EgoPushは、絶対的なポーズではなく、オブジェクト間の相対的な空間関係を符号化するオブジェクト中心の潜在空間を設計する。
この設計により、特権強化学習(RL)教師は、希薄なキーポイントから潜在状態と移動動作を共同で学習し、純粋に視覚的な学生ポリシーに蒸留することができる。
教師と一部観察した学生の監督のギャップを狭めるため,教師の観察を視覚的にアクセス可能な手がかりに限定した。
これにより、生徒の視点から回復可能な活発な知覚行動が引き起こされる。
長期のクレジット割り当てに対処するため、時間的に減衰したステージ局所的な完了報酬を用いて、ステージレベルのサブプロブレムに再配置する。
大規模なシミュレーション実験により、EgoPushは成功率においてエンド・ツー・エンドのRLベースラインを大幅に上回っており、それぞれの設計選択を検証している。
さらに、実世界のモバイルプラットフォーム上で、ゼロショットのsim-to-real転送を実証する。
コードとビデオはhttps://ai4ce.github.io/EgoPush/.comで公開されている。
関連論文リスト
- EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models [31.768426199719816]
EgoActingは,高レベルの指示を様々な,正確に,空間的に認識されたヒューマノイド行動に直結させることが要求される。
さらに,ロコモーションプリミティブを予測可能な,統一的でスケーラブルな視覚言語モデル(VLM)であるEgoActorを導入することで,このタスクをインスタンス化する。
我々は,実世界の実演,空間的推論質問応答,シミュレートされた環境デモンストレーションから,エゴセントリックなRGBのみのデータに対する広範囲の監視を活用している。
論文 参考訳(メタデータ) (2026-02-04T13:04:56Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement [51.16740261131198]
視覚言語誘導型ヒューマノイド制御のための新しいフレームワークであるHumanoidVerseを紹介する。
HumanoidVerseは、自然言語命令と自我中心のカメラRGB観測のみでガイドされる複数のオブジェクトの連続的な操作をサポートする。
我々の研究は、現実の知覚的制約の下で複雑なシーケンシャルなタスクを実行できる、堅牢で汎用的なヒューマノイドエージェントに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-23T08:23:14Z) - EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations [4.252119151012245]
EgoWorld(エゴワールド)は、エゴセントリックな視点を、豊富なエゴセントリックな視点から再構築する新しいフレームワークである。
提案手法は,推定された遠心深度マップから点雲を再構成し,それをエゴセントリックな視点に再投影し,拡散に基づくインペインティングを適用して,密集した意味的コヒーレントなエゴセントリックな画像を生成する。
EgoWorldは最先端のパフォーマンスを実現し、新しいオブジェクト、アクション、シーン、主題への堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-06-22T04:21:48Z) - GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。
参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。
私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文 参考訳(メタデータ) (2024-12-15T14:21:19Z) - A Virtual Reality Tool for Representing, Visualizing and Updating Deep
Learning Models [1.9785872350085878]
我々は、異なるカテゴリにデータ入力を割り当てるプロセスを自動化するバーチャルリアリティーツールを実演する。
データセットは仮想空間内の点の雲として表現される。
ユーザは動きを通して雲を探索し、手のジェスチャーを使って雲の一部を分類する。
論文 参考訳(メタデータ) (2023-05-24T17:06:59Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z) - Self-Supervised Object Goal Navigation with In-Situ Finetuning [110.6053241629366]
この研究は、探検を通じて世界の自己監督モデルを構築するエージェントを構築する。
ObjectNavエージェントのすべてのコンポーネントをトレーニングできる強力なセルフスーパービジョンのソースを特定します。
我々は,エージェントが実世界で競争力を発揮し,シミュレーションを行うことを示す。
論文 参考訳(メタデータ) (2022-12-09T03:41:40Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - End-to-End Partially Observable Visual Navigation in a Diverse
Environment [30.895264166384685]
本研究の目的は, (i) 複雑な視覚観察, (ii) 局所センシングの部分観測可能性, (iii) マルチモーダルナビゲーションの3つの課題である。
ローカルコントローラを表現するニューラルネットワーク(NN)アーキテクチャを提案し,エンドツーエンドアプローチの柔軟性を活用して強力なポリシを学習する。
本研究では,SPOTロボットにNNコントローラを実装し,部分観察を行う3つの課題について評価する。
論文 参考訳(メタデータ) (2021-09-16T06:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。