論文の概要: Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment Manipulation on GR1 and G1
- arxiv url: http://arxiv.org/abs/2512.01358v1
- Date: Mon, 01 Dec 2025 07:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.737488
- Title: Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment Manipulation on GR1 and G1
- Title(参考訳): GR1およびG1上でのクロス・エボディメント操作のための基礎的ロボット政策の修正
- Authors: Junsung Park, Hogun Kee, Songhwai Oh,
- Abstract要約: 本稿では,ロボットの基本方針をヒューマノイドの具体化に適応させるために,モダリティを付加した微調整フレームワークを提案する。
i) GR1エボディメントは, 2成分接触信号やZoeDepthの生成した距離深度を含む後処理モードを導入し, および (ii) cuRoboの運動計画, 逆運動学, 地軸接触力測定を取り入れた新しいマルチモーダルデータセットをコントリビュートしたUnitree G1エボディメントである。
- 参考スコア(独自算出の注目度): 19.542907117500743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a modality-augmented fine-tuning framework designed to adapt foundation robot policies to diverse humanoid embodiments. We validate our approach across two distinct settings: (i) the GR1 embodiment, utilizing public datasets where we introduce post-processed modalities, including binary contact signals and ZoeDepth-generated metric depth; and (ii) the Unitree G1 embodiment, for which we contribute a novel multi-modal dataset incorporating cuRobo motion planning, inverse kinematics, and ground-truth contact-force measurements. Our experiments demonstrate that modality augmentation consistently enhances policy performance across different embodiments. Specifically, for the GR1, integrating contact-state cues and RGB-D fusion improves online success rates from 51% to 63%. Furthermore, in the G1 "Pick Apple to Bowl" task, our contact-augmented model achieves a success rate of 94%, significantly outperforming the 48% achieved by standard fine-tuning and the 0% baseline of zero-shot transfer. These results highlight that lightweight post-processing effectively strengthens policies for GR1, while high-quality multi-modal data is crucial for reliable transfer to the Unitree G1. Consequently, this work establishes a unified, data-centric pathway for extending foundation robot policies through targeted modality design and multi-modal fine-tuning.
- Abstract(参考訳): 本稿では,基礎となるロボットポリシーを多種多様なヒューマノイド体に適応させるため,モダリティを付加した微調整フレームワークを提案する。
私たちは2つの異なる設定でアプローチを検証する。
i) GR1実施形態は、二元接触信号やZoeDepth生成距離深度を含む後処理モードを導入する公開データセットを利用しており、
(II)Unitree G1エボディメントは,cuRoboの運動計画,逆運動学,接地的接触力測定を取り入れた,新しいマルチモーダルデータセットを提供する。
我々の実験は、モダリティの増大は異なる実施形態における政策性能を一貫して向上させることを示した。
具体的には、GR1では、接触状態のキューとRGB-D融合を統合することで、オンラインの成功率が51%から63%に向上する。
さらに,G1の"Pick Apple to Bowl"タスクでは,接触拡大モデルが94%の成功率を実現し,標準微調整による48%,ゼロショット転送の0%をはるかに上回った。
これらの結果は、軽量な後処理がGR1のポリシーを効果的に強化する一方、高品質なマルチモーダルデータはUnitree G1への信頼性の高い転送に不可欠であることを示している。
その結果,本研究は,目標モダリティ設計とマルチモーダルファインタニングを通じて,基礎となるロボットポリシーを拡張する統一されたデータ中心の経路を確立する。
関連論文リスト
- CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - Generalization in Reinforcement Learning for Radio Access Networks [2.9822261313236513]
RAN制御のための一般化中心RLフレームワークを提案する。
部分的および雑音的な観測から動的に様々な状態を頑健に再構成する。
無線ノード、セル属性、およびそれらのトポロジなどの静的および半静的情報をグラフ表現によってエンコードする。
論文 参考訳(メタデータ) (2025-07-09T07:22:22Z) - SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z) - JoyAgents-R1: Joint Evolution Dynamics for Versatile Multi-LLM Agents with Reinforcement Learning [6.81021875668872]
ヘテロジニアス多エージェントの協調訓練にグループ相対ポリシー最適化を適用したJoyAgents-R1を提案する。
JoyAgents-R1は、より小さなオープンソースモデルで構築されたより大きなLLMに匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2025-06-24T17:59:31Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [52.2244588424002]
我々は,多様かつ現実的なデータの自動生成のためのスケーラブルなフレームワークであるRoboTwin 2.0を紹介する。
コアとなるRoboTwin-ODは、セマンティックおよび操作関連アノテーションを備えた147カテゴリにわたる771インスタンスのオブジェクトライブラリである。
sim-to-real転送を改善するために、RoboTwin 2.0は5つの軸に沿って構造化された領域ランダム化を適用する。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Toward 6G Native-AI Network: Foundation Model based Cloud-Edge-End Collaboration Framework [55.73948386625618]
データ、AIモデル、運用パラダイムの観点から、6GネイティブAIを達成する上での課題を分析します。
基礎モデルに基づく6GネイティブAIフレームワークを提案し、専門家の知識の統合方法を提供し、2種類のPFMのカスタマイズを提示し、ネイティブAIフレームワークの新たな運用パラダイムを概説する。
論文 参考訳(メタデータ) (2023-10-26T15:19:40Z) - Interpolation for Robust Learning: Data Augmentation on Wasserstein
Geodesics [38.81209454516577]
そこで本研究では,学習データ分布のカテゴリを通じて,モデルの性能に応じたロバスト性について研究し,促進することを提案する。
具体的には、人口分布を接続する測地線上の最悪のワッサーシュタインバリセンタを見つけることにより、データを増強する。
サブポピュレーション分布を接続する連続測地路上でのスムーズな性能のモデルを正規化する。
論文 参考訳(メタデータ) (2023-02-04T04:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。