Fugu-MT 論文翻訳(概要): Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

論文の概要: Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

arxiv url: http://arxiv.org/abs/2601.22988v1
Date: Fri, 30 Jan 2026 13:53:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.036638
Title: Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation
Title（参考訳）: ビュー一般化可能なロボットマニピュレーションのための幾何学的3次元視覚表現の学習
Authors: Di Zhang, Weicheng Duan, Dasen Gu, Hongye Lu, Hai Zhang, Hang Yu, Junqiao Zhao, Guang Chen,
Abstract要約: 実世界のロボット操作は、多様なカメラ視点で、堅牢な空間的シーン理解と強力な一般化を要求する。近年の3次元視覚表現の進歩は、将来性を示しているが、それでもいくつかの重要な限界に悩まされている。ビュー汎用ロボット操作のための統一型表現型政治学習フレームワークである MethodName を提案する。
参考スコア（独自算出の注目度）: 19.812030036563335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-world robotic manipulation demands visuomotor policies capable of robust spatial scene understanding and strong generalization across diverse camera viewpoints. While recent advances in 3D-aware visual representations have shown promise, they still suffer from several key limitations, including reliance on multi-view observations during inference which is impractical in single-view restricted scenarios, incomplete scene modeling that fails to capture holistic and fine-grained geometric structures essential for precise manipulation, and lack of effective policy training strategies to retain and exploit the acquired 3D knowledge. To address these challenges, we present MethodName, a unified representation-policy learning framework for view-generalizable robotic manipulation. MethodName introduces a single-view 3D pretraining paradigm that leverages point cloud reconstruction and feed-forward gaussian splatting under multi-view supervision to learn holistic geometric representations. During policy learning, MethodName performs multi-step distillation to preserve the pretrained geometric understanding and effectively transfer it to manipulation skills. We conduct experiments on 12 RLBench tasks, where our approach outperforms the previous state-of-the-art method by 12.7% in average success rate. Further evaluation on six representative tasks demonstrates strong zero-shot view generalization, with success rate drops of only 22.0% and 29.7% under moderate and large viewpoint shifts respectively, whereas the state-of-the-art method suffers larger decreases of 41.6% and 51.5%.
Abstract（参考訳）: 実世界のロボット操作は、様々なカメラ視点で、堅牢な空間的シーン理解と強力な一般化が可能な視覚的ポリシーを要求する。近年の3D対応視覚表現の進歩は将来性を示しているが、シングルビュー制限シナリオでは現実的ではない推論中の多視点観察への依存、正確な操作に不可欠な全体的かつきめ細かな幾何学的構造を捉えるのに失敗する不完全なシーンモデリング、取得した3D知識の保持と活用のための効果的な政策トレーニング戦略の欠如など、いくつかの重要な制限に悩まされている。これらの課題に対処するために,ビュー汎用ロボット操作のための統一型表現型政治学習フレームワークである MethodName を提案する。 MethodNameは、ポイントクラウド再構成と多視点監視下でフィードフォワードガウススプラッティングを活用して、全体幾何学的表現を学習する、単一ビュー3D事前学習パラダイムを導入している。ポリシー学習中、MethodNameは、事前訓練された幾何学的理解を保存し、操作スキルに効果的に転送するために、多段階の蒸留を行う。我々は12のRLBenchタスクの実験を行い、これまでの最先端手法を平均成功率で12.7%上回った。 6つの代表的タスクに関するさらなる評価は、成功率を22.0%と29.7%と、それぞれ中程度の視点シフトと大きな視点シフトで、強いゼロショットビューの一般化を示す一方、最先端の手法は41.6%と51.5%の減少に苦しむ。

関連論文リスト

Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文参考訳（メタデータ） (2026-01-13T23:36:30Z)
Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文参考訳（メタデータ） (2025-11-30T20:07:13Z)
DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文参考訳（メタデータ） (2025-10-28T10:17:11Z)
Learning Precise Affordances from Egocentric Videos for Robotic Manipulation [25.929092988536087]
Affordanceは、オブジェクトが提供する潜在的なアクションとして定義されており、AIエージェントの具体化に不可欠である。本研究では,エゴセントリックなビデオを取り込んで,人間のラベリングを伴わない正確なアベイランスアノテーションを出力する,完全なアベイランス学習システムを提案する。また,ツールの把握やロボット・ツー・ヒューマン・ツールのハンドオーバといった,手頃なロボット操作を容易にするフレームワークについても紹介する。
論文参考訳（メタデータ） (2024-08-19T16:11:47Z)
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations [19.41216557646392]
3次元拡散政策(DP3)は、新しい視覚模倣学習手法である。実験では、DP3は10のデモでほとんどのタスクを処理し、24.2%の相対的な改善でベースラインを超えた。実際のロボット実験では、DP3は頻繁に行う基準法とは対照的に、安全要件にほとんど違反しない。
論文参考訳（メタデータ） (2024-03-06T18:58:49Z)
On Triangulation as a Form of Self-Supervision for 3D Human Pose Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文参考訳（メタデータ） (2022-03-29T19:11:54Z)
A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文参考訳（メタデータ） (2020-12-14T22:18:39Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。