論文の概要: Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2509.11865v1
- Date: Mon, 15 Sep 2025 12:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.282889
- Title: Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer
- Title(参考訳): 天満:拡散変換器を用いたロバストなクロスエボディメントロボット
- Authors: Travis Davies, Yiqi Huang, Yunxin Liu, Xiang Chen, Huxian Liu, Luhui Hu,
- Abstract要約: Tenmaは、バイマニュアルアーム制御のための軽量な拡散変換器である。
天満平均成功率は88.95%である。
- 参考スコア(独自算出の注目度): 9.80060694093833
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scaling Transformer policies and diffusion models has advanced robotic manipulation, yet combining these techniques in lightweight, cross-embodiment learning settings remains challenging. We study design choices that most affect stability and performance for diffusion-transformer policies trained on heterogeneous, multimodal robot data, and introduce Tenma, a lightweight diffusion-transformer for bi-manual arm control. Tenma integrates multiview RGB, proprioception, and language via a cross-embodiment normalizer that maps disparate state/action spaces into a shared latent space; a Joint State-Time encoder for temporally aligned observation learning with inference speed boosts; and a diffusion action decoder optimized for training stability and learning capacity. Across benchmarks and under matched compute, Tenma achieves an average success rate of 88.95% in-distribution and maintains strong performance under object and scene shifts, substantially exceeding baseline policies whose best in-distribution average is 18.12%. Despite using moderate data scale, Tenma delivers robust manipulation and generalization, indicating the great potential for multimodal and cross-embodiment learning strategies for further augmenting the capacity of transformer-based imitation learning policies.
- Abstract(参考訳): トランスフォーマーのポリシーと拡散モデルのスケーリングはロボット操作を進歩させてきたが、これらのテクニックを軽量で断熱的な学習環境に組み合わせることは依然として困難である。
異種マルチモーダルロボットデータに基づいて訓練された拡散変圧器ポリシーの安定性と性能に最も影響を与える設計選択について検討し、両手動アーム制御のための軽量拡散変圧器である天満を導入する。
Tenmaは、多視点RGB、プロプレセプション、言語を、異なる状態/アクション空間を共有潜在空間にマッピングするクロスエボディメント正規化器と、推論速度の向上による時間的整合性学習のための統合状態-時間エンコーダと、安定性と学習能力の訓練に最適化された拡散動作デコーダによって統合する。
ベンチマークと一致した計算で、天満は88.95%の分散平均成功率を達成し、オブジェクトシフトやシーンシフトの下では高いパフォーマンスを維持し、最も分散平均が18.12%のベースラインポリシーを大幅に上回っている。
適度なデータスケールを使用するにもかかわらず、Tenmaは堅牢な操作と一般化を提供し、トランスフォーマーベースの模倣学習ポリシーの能力をさらに増強するためのマルチモーダルおよびクロスボデーメント学習戦略の大きな可能性を示している。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Enhancing Transferability of Targeted Adversarial Examples: A Self-Universal Perspective [13.557972227440832]
ブラックボックスディープニューラルネットワーク(DNN)に対するトランスファーベースの敵攻撃は、未ターゲットの攻撃よりもはるかに難しいことが証明されている。
生成方法である現在のSOTAの印象的な転送性は、大量の追加データを必要とするコストと、ターゲットラベルごとに時間のかかるトレーニングが伴う。
私たちは、この目標を追求する際の入力変換の大きな可能性を明らかにする、自己普遍的な視点を提供します。
論文 参考訳(メタデータ) (2024-07-22T14:51:28Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。