論文の概要: Structural Action Transformer for 3D Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2603.03960v1
- Date: Wed, 04 Mar 2026 11:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.283773
- Title: Structural Action Transformer for 3D Dexterous Manipulation
- Title(参考訳): 3次元デキスタラスマニピュレーションのための構造動作変換器
- Authors: Xiaohan Lei, Min Wang, Bohong Weng, Wengang Zhou, Houqiang Li,
- Abstract要約: クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
- 参考スコア(独自算出の注目度): 80.07649565189035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-level dexterity in robots via imitation learning from heterogeneous datasets is hindered by the challenge of cross-embodiment skill transfer, particularly for high-DoF robotic hands. Existing methods, often relying on 2D observations and temporal-centric action representation, struggle to capture 3D spatial relations and fail to handle embodiment heterogeneity. This paper proposes the Structural Action Transformer (SAT), a new 3D dexterous manipulation policy that challenges this paradigm by introducing a structural-centric perspective. We reframe each action chunk not as a temporal sequence, but as a variable-length, unordered sequence of joint-wise trajectories. This structural formulation allows a Transformer to natively handle heterogeneous embodiments, treating the joint count as a variable sequence length. To encode structural priors and resolve ambiguity, we introduce an Embodied Joint Codebook that embeds each joint's functional role and kinematic properties. Our model learns to generate these trajectories from 3D point clouds via a continuous-time flow matching objective. We validate our approach by pre-training on large-scale heterogeneous datasets and fine-tuning on simulation and real-world dexterous manipulation tasks. Our method consistently outperforms all baselines, demonstrating superior sample efficiency and effective cross-embodiment skill transfer. This structural-centric representation offers a new path toward scaling policies for high-DoF, heterogeneous manipulators.
- Abstract(参考訳): 異種データセットからの模倣学習によるロボットの人間レベルのデキスタリティ獲得は、特にハイDoFロボットハンドにおいて、クロスボデーメントスキル移行の課題によって妨げられている。
既存の手法は、しばしば2次元の観察と時間中心の行動表現に依存し、三次元空間関係を捉えるのに苦労し、エンボディメントの不均一性を扱うのに失敗する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタスな操作ポリシーである、構造的行動変換器(SAT)を提案する。
我々は、各アクションチャンクを時間的シーケンスではなく、可変長で順序のない共同軌道のシーケンスとして再構成する。
この構造的定式化によりトランスフォーマーは不均一なエンボディメントをネイティブに扱うことができ、結合数を可変配列長として扱うことができる。
構造的前提を符号化しあいまいさを解消するために,各関節の機能的役割と運動特性を組み込んだエンボディード・ジョイント・コードブックを導入する。
本モデルでは,3次元点雲から連続時間流マッチングによりこれらの軌跡を生成することを学習する。
我々は,大規模な異種データセットを事前学習し,シミュレーションや実世界のデキスタラスな操作タスクを微調整することで,我々のアプローチを検証する。
提案手法は,全てのベースラインを一貫して上回り,優れた試料効率と効果的なクロスエボディメント技術移転を示す。
この構造中心の表現は、ハイDoF、異種マニピュレータのスケーリングポリシーへの新たな道を提供する。
関連論文リスト
- ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes [25.939318593012484]
動的駆動シーンの再構築は、センサ・リアリスティック・シミュレーションによる自律システム開発に不可欠である。
我々は,動的シーンを明示的なインスタンス分解と学習可能なモーショントラジェクトリで再構成する,自己教師型3次元ガウススティングフレームワークIDSplatを提案する。
本手法は, インスタンスレベルの分解を維持しつつ, 競合する再構成品質を実現し, 再トレーニングを伴わずに, 多様なシーケンスやビュー密度を一般化する。
論文 参考訳(メタデータ) (2025-11-24T15:48:08Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization [68.07464514094299]
既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。
形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。
当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
論文 参考訳(メタデータ) (2025-04-03T17:57:52Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。