論文の概要: PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement
- arxiv url: http://arxiv.org/abs/2410.22059v1
- Date: Tue, 29 Oct 2024 14:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:28.681782
- Title: PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement
- Title(参考訳): PACA:ゼロショットシーン再配置のための視点認識型クロスアテンション表現
- Authors: Shutong Jin, Ruiyu Wang, Kuangyi Chen, Florian T. Pokorny,
- Abstract要約: PACAはシーンアレンジメントのためのゼロショットパイプラインである。
オブジェクトレベルの表現を生成するために,生成,セグメンテーション,特徴エンコーディングを単一ステップに統合する表現を開発する。
- 参考スコア(独自算出の注目度): 8.435401907462245
- License:
- Abstract: Scene rearrangement, like table tidying, is a challenging task in robotic manipulation due to the complexity of predicting diverse object arrangements. Web-scale trained generative models such as Stable Diffusion can aid by generating natural scenes as goals. To facilitate robot execution, object-level representations must be extracted to match the real scenes with the generated goals and to calculate object pose transformations. Current methods typically use a multi-step design that involves separate models for generation, segmentation, and feature encoding, which can lead to a low success rate due to error accumulation. Furthermore, they lack control over the viewing perspectives of the generated goals, restricting the tasks to 3-DoF settings. In this paper, we propose PACA, a zero-shot pipeline for scene rearrangement that leverages perspective-aware cross-attention representation derived from Stable Diffusion. Specifically, we develop a representation that integrates generation, segmentation, and feature encoding into a single step to produce object-level representations. Additionally, we introduce perspective control, thus enabling the matching of 6-DoF camera views and extending past approaches that were limited to 3-DoF top-down views. The efficacy of our method is demonstrated through its zero-shot performance in real robot experiments across various scenes, achieving an average matching accuracy and execution success rate of 87% and 67%, respectively.
- Abstract(参考訳): テーブルタイディイングのようなシーン再構成は、多様な物体の配置を予測する複雑さのため、ロボット操作において難しい作業である。
安定拡散のようなWebスケールの訓練された生成モデルは、自然なシーンを目標として生成することで助けることができる。
ロボットの実行を容易にするためには、オブジェクトレベルの表現を抽出して、実際のシーンと生成されたゴールとを一致させ、オブジェクトのポーズ変換を計算する必要がある。
現在の手法では、生成、セグメンテーション、特徴符号化の別々のモデルを含む多段階設計が一般的であり、エラーの蓄積による成功率の低下につながる可能性がある。
さらに、生成されたゴールの視点を制御できず、タスクを3DoF設定に制限している。
本稿では,安定拡散から導かれる視点認識のクロスアテンション表現を活用するシーンアレンジメントのためのゼロショットパイプラインであるPACAを提案する。
具体的には、オブジェクトレベルの表現を生成するために、生成、セグメンテーション、特徴エンコーディングを単一のステップに統合する表現を開発する。
さらに、視点制御を導入し、6-DoFカメラビューのマッチングを可能にし、3-DoFトップダウンビューに制限された過去のアプローチを拡張する。
本手法の有効性は, 実写ロボット実験において, 87%, 67%の平均マッチング精度と実行成功率をそれぞれ達成し, 実写ロボット実験におけるゼロショット性能を用いて実証した。
関連論文リスト
- Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z) - Diffusion-based Generation, Optimization, and Planning in 3D Scenes [89.63179422011254]
本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。
SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
従来のモデルに比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-01-15T03:43:45Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - PQ-Transformer: Jointly Parsing 3D Objects and Layouts from Point Clouds [4.381579507834533]
点雲からの3Dシーン理解は、様々なロボットアプリケーションにおいて重要な役割を果たす。
現在の最先端の手法では、オブジェクト検出や部屋のレイアウト推定など、さまざまなタスクに別々のニューラルネットワークを使用している。
本稿では,3次元オブジェクトとレイアウトを同時に予測するトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-12T17:31:59Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。