論文の概要: Large Pre-Trained Models for Bimanual Manipulation in 3D
- arxiv url: http://arxiv.org/abs/2509.20579v1
- Date: Wed, 24 Sep 2025 21:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.598685
- Title: Large Pre-Trained Models for Bimanual Manipulation in 3D
- Title(参考訳): 二次元マニピュレーションのための大規模事前学習モデル
- Authors: Hanna Yurchyk, Wei-Di Chang, Gregory Dudek, David Meger,
- Abstract要約: 我々は、事前訓練された視覚変換器からの注意マップをボクセル表現に統合し、バイマニュアルロボット操作を強化する。
最先端のボクセルベースの政策に統合されると、注意誘導による成果物化は平均8.2%の絶対的な改善をもたらす。
- 参考スコア(独自算出の注目度): 15.09982213929493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the integration of attention maps from a pre-trained Vision Transformer into voxel representations to enhance bimanual robotic manipulation. Specifically, we extract attention maps from DINOv2, a self-supervised ViT model, and interpret them as pixel-level saliency scores over RGB images. These maps are lifted into a 3D voxel grid, resulting in voxel-level semantic cues that are incorporated into a behavior cloning policy. When integrated into a state-of-the-art voxel-based policy, our attention-guided featurization yields an average absolute improvement of 8.2% and a relative gain of 21.9% across all tasks in the RLBench bimanual benchmark.
- Abstract(参考訳): 本研究では,事前学習した視覚変換器からボクセル表現へのアテンションマップの統合について検討した。
具体的には、自己教師型ViTモデルであるDINOv2から注目マップを抽出し、RGB画像よりもピクセルレベルのサリエンシスコアとして解釈する。
これらのマップは3次元のボクセルグリッドに持ち上げられ、結果としてボクセルレベルのセマンティックキューが行動クローニングポリシーに組み込まれる。
最先端のボクセルベースの政策に統合されると、我々の注意誘導による成果物化は、RLBenchバイマニュアルベンチマークの全てのタスクで平均8.2%の絶対的な改善と21.9%の相対的な増加をもたらす。
関連論文リスト
- OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for Robots [18.200635521222267]
OV-MAPは、オブジェクト認識機能を高めるために、オープンな特徴を3Dマップに統合することで、移動ロボットのためのオープンワールド3Dマッピングの新しいアプローチである。
我々は2次元マスクを3次元空間に投影するクラス非依存セグメンテーションモデルと、点雲から生の深度と合成の深度をマージして作成した補足深度画像を組み合わせた。
このアプローチは、3Dマスク投票機構とともに、3D教師付きセグメンテーションモデルに頼ることなく、正確なゼロショット3Dインスタンスセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2025-06-13T08:49:23Z) - BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models [48.81848689570674]
BridgeVLAは、3D入力を複数の2D画像に投影し、VLMバックボーンとの入力アライメントを保証する新しい3D VLAモデルである。
アクション予測に2Dヒートマップを使用し、一貫した2次元画像空間内の入力空間と出力空間を統一する。
10以上のタスクで96.8%の成功率を達成することができ、1タスクにつき3つの軌道しか持たず、異常なサンプル効率を誇示している。
論文 参考訳(メタデータ) (2025-06-09T17:36:34Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - CLiNet: Joint Detection of Road Network Centerlines in 2D and 3D [5.543544712471748]
本研究は,2次元と3次元で共同で特徴をローカライズすることで,画像データに基づく中心線の共同検出のための新しいアプローチを提案する。
AV Breadcrumbsと呼ばれる大規模都市走行データセットをベクトル地図表現と射影幾何学を利用して自動的にラベル付けし,900,000以上の画像に注釈を付ける。
論文 参考訳(メタデータ) (2023-02-04T23:30:04Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object
Detection [46.03951171790736]
3Dオブジェクト検出のための自動機能融合戦略であるtextitAutoAlignを提案する。
提案手法は,KITTIデータセットとnuScenesデータセットの2.3mAPと7.0mAPの改善につながることを示す。
論文 参考訳(メタデータ) (2022-01-17T16:08:57Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。