Fugu-MT 論文翻訳(概要): LEGS: Fine-Tuning Teleop-Free VLAs for Humanoid Loco-manipulation in an Embodied Gaussian Splatting World

論文の概要: LEGS: Fine-Tuning Teleop-Free VLAs for Humanoid Loco-manipulation in an Embodied Gaussian Splatting World

arxiv url: http://arxiv.org/abs/2606.01458v1
Date: Sun, 31 May 2026 21:36:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.71432
Title: LEGS: Fine-Tuning Teleop-Free VLAs for Humanoid Loco-manipulation in an Embodied Gaussian Splatting World
Title（参考訳）: LEGS:人型ロボマニピュレーションのための細調整型テレオップフリーVLA
Authors: Hojune Kim, Timothy Chen, Jiankai Sun, Lars W. Osterberg, Qianzhong Chen, Ke Wang, Mac Schwager,
Abstract要約: LEGS (Loco-Manipulation via Embodied Gaussian Splatting) は、手持ちのシーンキャプチャから再構築された、フォトリアリスティックな3Dガウスの背景の上にメッシュ前景(ロボット、オブジェクト、プロップ)を合成するハイブリッドシミュレータである。ユニツリーG1のヒューマノイドロボットでは、3つのタスクにまたがって、LEGSのデータマッチングに純粋に訓練されたポリシーが、あらゆる実験で人間の遠隔操作デモで訓練されたポリシーを上回っている。また、3DGSの背景効果を非難するメッシュのみのシミュレーションベースラインを上回り、フォトリアリスティックレンダリングが合成データ転送の鍵となることを示している。
参考スコア（独自算出の注目度）: 14.534355249709371
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training vision-language-action (VLA) policies for humanoid loco-manipulation is constrained by the high cost and complexity of collecting human teleoperation demonstrations. VLA policies fine-tuned in simulators have, until now, failed to transfer effectively in humanoid loco-manipulation tasks. We present LEGS (Loco-manipulation via Embodied Gaussian Splatting), a hybrid simulator that composites a mesh foreground (robot, objects, props) over a photorealistic 3D Gaussian Splatting (3DGS) background reconstructed from a handheld scene capture. LEGS uses a procedural motion-primitive generator to synthesize labeled demonstrations at scale without human teleoperation, and a deterministic two-stage color calibration to align the rendered 3DGS image to the robot's deployment camera. On a Unitree G1 humanoid robot, across three pick-and-place tasks of increasing whole-body difficulty and three VLA backbones (psi_0, pi_0.5, GR00T N1.6), a policy trained purely on LEGS data matches or exceeds one trained on human teleoperation demos on every experiment. It also outperforms a mesh-only simulation baseline that ablates the effect of the 3DGS background, showing that photorealistic rendering is a key enabler for synthetic data transfer. Humanoid motion is recorded independently of scene appearance in LEGS, allowing the same auto-generated demonstrations to be re-rendered under new backgrounds and object meshes--covering a new scene at more than 15x lower cost than teleoperation--to augment training data for robustness to scene variations. Under combined object-and-scene appearance shift, the policy trained on re-rendered LEGS-AUG data maintains task success while the baseline trained on teleoperation data fails entirely. Our project page is located at https://legsvla.github.io/.
Abstract（参考訳）: ヒューマノイド・ロコ・マニピュレーションのための視覚-言語-アクション(VLA)の訓練方針は、人間の遠隔操作のデモンストレーションを収集するコストと複雑さによって制約される。シミュレーターで微調整されたVLAポリシーは、これまでヒューマノイドのロコ操作タスクで効果的に転送できなかった。我々は,手持ちのシーンキャプチャから再構成した3Dガウス撮影(3DGS)の背景にメッシュ前景(ロボット,オブジェクト,プロップ)を合成するハイブリッドシミュレータLEGS(Loco-Manipulation via Embodied Gaussian Splatting)を提案する。 LEGSは、人間の遠隔操作なしで大規模にラベル付けされたデモを合成するための手続き的なモーションプリミティブジェネレータと、レンダリングされた3DGS画像をロボットの展開カメラに合わせるための決定論的2ステージカラーキャリブレーションを使用する。ユニツリーG1のヒューマノイドロボットでは、体の難易度を増加させる3つのピック・アンド・プレイス・タスクと3つのVLAバックボーン(psi_0, pi_0.5, GR00T N1.6)にまたがって、LEGSのデータマッチングに純粋に訓練されたポリシーが、すべての実験で人間の遠隔操作デモで訓練されたものを上回っている。また、3DGSの背景効果を非難するメッシュのみのシミュレーションベースラインを上回り、フォトリアリスティックレンダリングが合成データ転送の鍵となることを示している。ヒューマノイドの動きは、LEGSのシーンの外観とは独立して記録されており、同じ自動生成デモを新しいバックグラウンドとオブジェクトメッシュの下で再レンダリングすることができる。オブジェクトとシーンの組み合わせの外観シフトの下で、再レンダリングされたLEGS-AUGデータに基づいてトレーニングされたポリシーはタスク成功を維持し、遠隔操作データでトレーニングされたベースラインは完全に失敗する。私たちのプロジェクトページはhttps://legsvla.github.io/にあります。

関連論文リスト

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文参考訳（メタデータ） (2026-02-26T16:53:41Z)
RoboPaint: From Human Demonstration to Any Robot and Any View [9.083647729839688]
本研究では,人間による実演をロボットが実行可能な環境特化学習データに変換するためのリアルタイムデータ収集とデータ編集パイプラインを提案する。そこで本研究では,10種類のオブジェクト操作タスクに対して,デキスハンドトラジェクトリの再ターゲットが84%の成功率を達成することを示す。複雑なデクサラス操作のために,パフォーマンス損失を最小限に抑えた,スケーラブルで費用対効果の高い遠隔操作の代替手段を提供する。
論文参考訳（メタデータ） (2026-02-05T05:45:12Z)
AHA! Animating Human Avatars in Diverse Scenes with Gaussian Splatting [26.560838721184435]
3次元ガウススプラッティング(3DGS)を用いた3次元シーンにおける人間アニメーションのための新しい枠組みを提案する。ヒトとシーンをガウスとして表現することで、我々のアプローチは3Dシーンと相互作用する人間の幾何学的に一貫性のある自由視点レンダリングを可能にする。我々は,Scannet++とSuperSplatライブラリのシーンに対するアプローチと,疎密で高密度なマルチビュー・ヒューマンキャプチャから再構成したアバターに対するアプローチを評価した。
論文参考訳（メタデータ） (2025-11-13T00:19:18Z)
GSWorld: Closed-Loop Photo-Realistic Simulation Suite for Robotic Manipulation [18.684526752120412]
GSWorldは、3Dガウススプラッティングと物理エンジンを組み合わせたロボット操作のための写真リアルシミュレータだ。本フレームワークは,実ロボットデータから得られたポリシーを再現可能な評価で評価する操作ポリシーの「ループを閉じる」ことを提唱する。
論文参考訳（メタデータ） (2025-10-23T17:59:26Z)
GaussGym: An open-source real-to-sim framework for learning locomotion from pixels [78.05453137978132]
本稿では,3次元ガウススプラッティングをベクトル化物理シミュレータのドロップインとして統合した光現実的ロボットシミュレーションを提案する。これにより、コンシューマGPUで毎秒10万ステップを超える、前例のないスピードを実現している。また,シミュレーティブ・トゥ・リアル・ロボティクス・セッティングにおける適用性を実証した。
論文参考訳（メタデータ） (2025-10-17T06:34:52Z)
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-09-23T17:58:01Z)
TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文参考訳（メタデータ） (2025-09-15T12:25:39Z)
Robot Learning with Super-Linear Scaling [13.053949644385932]
CASHERは、データ収集と学習をシミュレーションでスケールアップするためのパイプラインであり、パフォーマンスは人間の努力と超直線的にスケールする。そこで我々は,CASHERにより,人的努力を伴わないビデオスキャンにより,事前学習したポリシーを目標シナリオに微調整できることを示す。
論文参考訳（メタデータ） (2024-12-02T18:12:02Z)
DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation [66.7719069053058]
DeformGSは、複数のカメラからダイナミックなシーンを同時撮影することで、高度に変形可能なシーンのシーンフローを復元するアプローチである。 DeformGSは最先端と比較して平均55.8%の3Dトラッキングを改善している。十分なテクスチャで、DeformGSは1.5 x 1.5 mの布の上で3.3mmの中央値追跡誤差を達成している。
論文参考訳（メタデータ） (2023-11-30T18:53:03Z)
Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文参考訳（メタデータ） (2021-08-23T20:47:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。