論文の概要: PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation
- arxiv url: http://arxiv.org/abs/2601.17885v1
- Date: Sun, 25 Jan 2026 15:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.511269
- Title: PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation
- Title(参考訳): PEAfowl: 両眼マニピュレーションのための知覚強調多視点視覚言語アクション
- Authors: Qingyu Fan, Zhaoxiang Li, Yi Lu, Wang Chen, Qiu Shen, Xiao-xiao Long, Yinghao Cai, Tao Lu, Shuo Wang, Xun Cao,
- Abstract要約: PEAfowlは、双方向操作のためのマルチビューVLAポリシーである。
PEAfowlは、トークンごとの深さ分布を予測し、微分可能な3Dリフトを実行し、ローカルなクロスビューの隣人を集約する。
そこで本研究では,グローバルコンディショニングをPerceiverスタイルのテキスト認識読み出しに置き換えることを提案する。
- 参考スコア(独自算出の注目度): 43.24861724098714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bimanual manipulation in cluttered scenes requires policies that remain stable under occlusions, viewpoint and scene variations. Existing vision-language-action models often fail to generalize because (i) multi-view features are fused via view-agnostic token concatenation, yielding weak 3D-consistent spatial understanding, and (ii) language is injected as global conditioning, resulting in coarse instruction grounding. In this paper, we introduce PEAfowl, a perception-enhanced multi-view VLA policy for bimanual manipulation. For spatial reasoning, PEAfowl predicts per-token depth distributions, performs differentiable 3D lifting, and aggregates local cross-view neighbors to form geometrically grounded, cross-view consistent representations. For instruction grounding, we propose to replace global conditioning with a Perceiver-style text-aware readout over frozen CLIP visual features, enabling iterative evidence accumulation. To overcome noisy and incomplete commodity depth without adding inference overhead, we apply training-only depth distillation from a pretrained depth teacher to supervise the depth-distribution head, providing perception front-end with geometry-aware priors. On RoboTwin 2.0 under domain-randomized setting, PEAfowl improves the strongest baseline by 23.0 pp in success rate, and real-robot experiments further demonstrate reliable sim-to-real transfer and consistent improvements from depth distillation. Project website: https://peafowlvla.github.io/.
- Abstract(参考訳): 散らばったシーンにおける双方向の操作は、隠蔽、視点、シーンのバリエーションの下で安定なポリシーを必要とする。
既存の視覚言語アクションモデルは、しばしば一般化に失敗する。
(i)マルチビュー特徴は、ビュー非依存トークン結合によって融合され、3次元一貫性の弱い空間的理解が得られ、
(ii)言語は、大域的条件付けとして注入され、粗い命令グラウンド化をもたらす。
本稿では,双方向操作のためのマルチビュー VLA ポリシーである PEAfowl を紹介する。
空間的推論のために、PEAfowlは、トークンごとの深さ分布を予測し、微分可能な3Dリフトを実行し、局所的な横方向の近傍を集約して幾何学的に接地され、横方向の一貫性のある表現を形成する。
そこで本研究では,グローバルコンディショニングを,凍結したCLIP視覚的特徴に対してPerceiverスタイルのテキスト認識読み出しに置き換えることで,反復的なエビデンス蓄積を実現することを提案する。
予測オーバーヘッドを加味することなく、騒音や不完全な商品深度を克服するため、事前訓練された深度教師からの訓練専用深度蒸留を適用し、深度分布ヘッドを監督し、幾何学的事前認識を提供する。
ドメインランダム化条件下でのRoboTwin 2.0では、PEAfowlは成功率23.0ppで最強のベースラインを向上し、実ロボット実験はさらに信頼性の高いsim-to-realトランスファーと深度蒸留による一貫した改善を示す。
プロジェクトウェブサイト: https://peafowlvla.github.io/.com
関連論文リスト
- Towards Ambiguity-Free Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity [20.86484181698326]
決定論的予測に限定された既存のモデルは、現実世界の多層深度を見落としている。
単一予測から多仮説空間基盤モデルへのパラダイムシフトを導入する。
論文 参考訳(メタデータ) (2025-03-08T02:33:54Z) - FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models [40.966197115577344]
3Dヒューマンポース推定タスクは、3D空間における人間の関節座標を予測するために2D画像またはビデオを使用する。
我々は3次元HPEの拡散モデルに基づくファイングレードプロンプト駆動型デノイザ(textbfFinePOSE)を提案する。
拡散モデルの逆過程を強化する3つのコアブロックから構成される。
公開シングルヒューマンポーズデータセットの実験では、FinePOSEが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-08T17:09:03Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。