論文の概要: TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning
- arxiv url: http://arxiv.org/abs/2509.11839v2
- Date: Wed, 17 Sep 2025 03:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 12:21:58.921979
- Title: TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning
- Title(参考訳): TrajBooster: 軌道中心学習によるヒューマノイド全体操作の促進
- Authors: Jiacheng Liu, Pengxiang Ding, Qihang Zhou, Yuxuan Wu, Da Huang, Zimian Peng, Wei Xiao, Weinan Zhang, Lixin Yang, Cewu Lu, Donglin Wang,
- Abstract要約: 両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 79.59753528758361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language-Action models show potential to generalize across embodiments but struggle to quickly align with a new robot's action space when high-quality demonstrations are scarce, especially for bipedal humanoids. We present TrajBooster, a cross-embodiment framework that leverages abundant wheeled-humanoid data to boost bipedal VLA. Our key idea is to use end-effector trajectories as a morphology-agnostic interface. TrajBooster (i) extracts 6D dual-arm end-effector trajectories from real-world wheeled humanoids, (ii) retargets them in simulation to Unitree G1 with a whole-body controller trained via a heuristic-enhanced harmonized online DAgger to lift low-dimensional trajectory references into feasible high-dimensional whole-body actions, and (iii) forms heterogeneous triplets that couple source vision/language with target humanoid-compatible actions to post-pre-train a VLA, followed by only 10 minutes of teleoperation data collection on the target humanoid domain. Deployed on Unitree G1, our policy achieves beyond-tabletop household tasks, enabling squatting, cross-height manipulation, and coordinated whole-body motion with markedly improved robustness and generalization. Results show that TrajBooster allows existing wheeled-humanoid data to efficiently strengthen bipedal humanoid VLA performance, reducing reliance on costly same-embodiment data while enhancing action space understanding and zero-shot skill transfer capabilities. For more details, For more details, please refer to our \href{https://jiachengliu3.github.io/TrajBooster/}.
- Abstract(参考訳): 近年のVision-Language-Actionモデルでは,特に2足歩行のヒューマノイドにおいて,高品質なデモが不足している場合に,新しいロボットのアクション空間と迅速に連携する可能性を示している。
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
トラジャブスター(TrajBooster)
i)現実世界の車輪付きヒューマノイドから6Dデュアルアームエンドエフェクター軌道を抽出する。
二 ヒューリスティック高調波オンラインDAggerを用いて訓練し、低次元軌道基準を実現可能な高次元全体動作に引き上げて、ユニツリーG1にシミュレーションで再ターゲットする。
3) VLAの事前訓練後, 対象のヒューマノイドドメインの遠隔操作データ収集に, 対象のヒューマノイドに適合する動作とソースビジョン/言語を結合させるヘテロジニアス三重項を形成する。
本方針は,Unitree G1上に展開され,テーブルトップ以上の家庭作業を実現し,しゃがみ,クロスハイト操作,全身運動のコーディネートを実現し,ロバスト性や一般化を著しく向上させる。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータを効率よく両足用ヒューマノイドVLAの性能を向上し,アクション空間理解とゼロショットスキル伝達能力を高めつつ,コストのかかる同一身体データへの依存を低減できることが示唆された。
詳細については、我々の \href{https://jiachengliu3.github.io/TrajBooster/} を参照してください。
関連論文リスト
- ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning [59.64325421657381]
ヒューマノイド全体のロコ操作は、日々のサービスや倉庫のタスクにトランスフォーメーション機能を約束する。
ResMimicは、人間の動作データから正確に表現力のあるヒューマノイド制御のための2段階の残差学習フレームワークである。
結果は、強いベースラインよりもタスク成功、トレーニング効率、堅牢性が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-10-06T17:47:02Z) - OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction [76.44108003274955]
ヒューマノイドロボットの複雑なスキルを教えるための主要なパラダイムは、強化学習ポリシーの運動学的参照として人間の動きを再ターゲットすることである。
インタラクションメッシュに基づくインタラクション保存データ生成エンジンであるOmniRetargetを紹介する。
人間のメッシュとロボットメッシュの間のラプラシアの変形を最小限にすることで、OmniRetargetは運動学的に実現可能な軌道を生成する。
論文 参考訳(メタデータ) (2025-09-30T17:59:02Z) - RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking [50.200035833530876]
RobotDancingはシンプルでスケーラブルなフレームワークで、残留する関節の目標を予測して、ダイナミックスの不一致を明示的に修正する。
複数分間の高エネルギー動作(ジャンプ、スピン、カートホイール)をトラッキングし、高いモーショントラッキング品質のハードウェアにゼロショットをデプロイする。
論文 参考訳(メタデータ) (2025-09-25T03:30:34Z) - Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - Conditioning Matters: Training Diffusion Policies is Faster Than You Think [69.31534053485711]
拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。
条件拡散政策訓練の基本的な課題は, 生成条件の識別が困難である場合, 訓練対象が限界行動分布をモデル化することである。
条件に依存しない条件付きフローマッチングにおけるソース分布を変更するソリューションであるCocosを提案する。
論文 参考訳(メタデータ) (2025-05-16T11:14:22Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - H-GAP: Humanoid Control with a Generalist Planner [45.50995825122686]
ヒューマノイド一般自動符号化プランナー(Humanoid Generalist Autoencoding Planner、H-GAP)は、人間のモーションキャプチャーデータから派生したヒューマノイド軌道に基づいて訓練された生成モデルである。
56自由度ヒューマノイドでは、H-GAPが幅広い運動行動の表現と生成を学習していることが実証的に証明されている。
また,H-GAPのスケーリング特性に関する実証的研究を行い,データの追加による性能向上の可能性を示した。
論文 参考訳(メタデータ) (2023-12-05T11:40:24Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Jointformer: Single-Frame Lifting Transformer with Error Prediction and
Refinement for 3D Human Pose Estimation [11.592567773739407]
人間の3次元ポーズ推定技術は、人間の動きデータの可用性を大幅に向上させる可能性がある。
シングルイメージ2D-3Dリフトの最高の性能モデルは、通常、異なる体節間の関係を定義するために手動入力を必要とするグラフ畳み込みネットワーク(GCN)を使用する。
より一般化された自己認識機構を用いてこれらの関係を学習するトランスフォーマーに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T12:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。