論文の概要: LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation
- arxiv url: http://arxiv.org/abs/2604.08475v1
- Date: Thu, 09 Apr 2026 17:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.041979
- Title: LAMP: Lift Image-Editing as General 3D Priors for Open-world Manipulation
- Title(参考訳): LAMP: オープンワールドのマニピュレーションに先駆けた3D画像編集
- Authors: Jingjing Wang, Zhengdong Hong, Chong Bao, Yuke Zhu, Junhan Sun, Guofeng Zhang,
- Abstract要約: LAMPは,物体間3次元変換を連続的かつ幾何学的に認識した表現として抽出するために,画像編集を3次元先行として引き上げる。
私たちの重要な洞察は、画像編集は本質的にリッチな2次元空間的手がかりを符号化し、これらの暗黙の手がかりを3次元変換に引き上げることで、オープンワールド操作のためのきめ細かい正確なガイダンスを提供するということです。
- 参考スコア(独自算出の注目度): 33.021510263749455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-like generalization in open-world remains a fundamental challenge for robotic manipulation. Existing learning-based methods, including reinforcement learning, imitation learning, and vision-language-action-models (VLAs), often struggle with novel tasks and unseen environments. Another promising direction is to explore generalizable representations that capture fine-grained spatial and geometric relations for open-world manipulation. While large-language-model (LLMs) and vision-language-model (VLMs) provide strong semantic reasoning based on language or annotated 2D representations, their limited 3D awareness restricts their applicability to fine-grained manipulation. To address this, we propose LAMP, which lifts image-editing as 3D priors to extract inter-object 3D transformations as continuous, geometry-aware representations. Our key insight is that image-editing inherently encodes rich 2D spatial cues, and lifting these implicit cues into 3D transformations provides fine-grained and accurate guidance for open-world manipulation. Extensive experiments demonstrate that \codename delivers precise 3D transformations and achieves strong zero-shot generalization in open-world manipulation. Project page: https://zju3dv.github.io/LAMP/.
- Abstract(参考訳): オープンワールドにおける人間のような一般化は、ロボット操作の根本的な課題である。
強化学習、模倣学習、視覚言語アクションモデル(VLA)など、既存の学習ベースの手法は、しばしば新しいタスクや目に見えない環境に苦しむ。
もう一つの有望な方向は、オープンワールド操作のためのきめ細かい空間的および幾何学的関係を捉える一般化可能な表現を探索することである。
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、言語や注釈付き2D表現に基づく強力な意味論的推論を提供するが、それらの3D認識は、微粒な操作への適用性を制限している。
そこで本研究では,画像編集を3次元先行として引き上げ,オブジェクト間3次元変換を連続的・幾何学的表現として抽出するLAMPを提案する。
私たちの重要な洞察は、画像編集は本質的にリッチな2次元空間的手がかりを符号化し、これらの暗黙の手がかりを3次元変換に引き上げることで、オープンワールド操作のためのきめ細かい正確なガイダンスを提供するということです。
大規模な実験では、 \codenameは正確な3D変換を提供し、オープンワールド操作において強力なゼロショット一般化を実現する。
プロジェクトページ: https://zju3dv.github.io/LAMP/。
関連論文リスト
- Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting [74.56128224977279]
GALAは3次元ガウススプラッティングを用いたオープンな3次元シーン理解のための新しいフレームワークである(3DGS)。
GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。
シームレスな2Dおよび3Dオープン語彙クエリをサポートし、ガウス単位の高次元特徴学習を回避してメモリ消費を削減する。
論文 参考訳(メタデータ) (2025-08-19T21:26:49Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - AGO: Adaptive Grounding for Open World 3D Occupancy Prediction [16.994671814016616]
AGOは、さまざまなオープンワールドシナリオを扱うための適応的な基盤を備えた、新しい3D占有予測フレームワークである。
モダリティアダプタは、VLM由来の画像埋め込みと整合した空間に3D埋め込みをマッピングし、モダリティギャップを低減する。
Occ3D-nuScenesの実験では、AGOはゼロショットおよび少数ショット転送において未知のオブジェクト予測を改善する。
論文 参考訳(メタデータ) (2025-04-14T11:26:20Z) - Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation [44.58709274218105]
この研究は、蒸留された特徴場を利用して2次元基礎モデルのリッチなセマンティクスと正確な3次元幾何学を組み合わせることにより、ロボット操作のための2次元から3次元のギャップを橋渡しする。
そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショットの学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:59:14Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。