論文の概要: $χ_{0}$: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies
- arxiv url: http://arxiv.org/abs/2602.09021v1
- Date: Mon, 09 Feb 2026 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.445441
- Title: $χ_{0}$: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies
- Title(参考訳): リソースを意識したロバスト操作の分散不整合の処理
- Authors: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan,
- Abstract要約: 両腕ロボットの2つのセットは、平ら化、折りたたみ、さまざまな服の吊り下げなど、衣服の操作をオーケストレーションします。
$_0$は、ロボット操作のプロダクションレベルの堅牢性を達成するために、効率的なモジュールが指定された、リソース効率のよいフレームワークである。
実験によると、$_0$は、20時間データと8 A100 GPUだけで、最先端の$_0.5$を成功率で250%近く上回っている。
- 参考スコア(独自算出の注目度): 40.920885088894174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose $χ_{0}$, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. $χ_{0}$ enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that $χ_{0}$ surpasses the state-of-the-art $π_{0.5}$ in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.
- Abstract(参考訳): 信頼性の高い長距離ロボット操作は、伝統的に、複雑な現実世界のダイナミクスを理解するために、大規模なデータと計算に依存してきた。
しかし,実世界のロバスト性に対する主要なボトルネックは,資源規模だけではなく,人間の実演分布の分布変化,政策によって学習された帰納的バイアス,多段階タスクにおける複合的エラーを引き起こす系統的不整合であるテスト時実行分布などである。
この不整合を緩和するために,ロボット操作における実運用レベルの堅牢性を実現するために,効率的なモジュールを指定した資源効率のよいフレームワークである$ _{0}$を提案する。
私たちのアプローチは3つの技術的柱から成り立っている。
一 モデル算術(モデル算術) 物体の外観から状態の変動まで様々に異なるデモンストレーションの多様な分布を効率よく吸収する重量空間統合戦略。
(II)ステージアドバンテージ(ステージアウェア・アドバンテージ)は、安定かつ高密度な進行信号を提供し、従来の非ステージアプローチの数値不安定性を克服する、ステージアウェア・アドバンテージ推定器である。
三 時空間増強、ヒューリスティックダガー補正、時空間平滑化により配電ギャップを橋渡しする列車配置調整
2組のデュアルアームロボットが、平らな服や折りたたみ服、さまざまな服の吊り下げなど、長い水平服の操作を協調的に行うことができる。
本手法は信頼性の高い自律性を示し,24時間連続で任意の初期状態からシステムを実行することができる。
実験の結果, π_{0.5}===================================================================================================================================================================================================
コード、データ、モデルはコミュニティを促進するためにリリースされます。
関連論文リスト
- Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - DM1: MeanFlow with Dispersive Regularization for 1-Step Robotic Manipulation [23.382067451764396]
フローベースの生成モデルは、アクションの分布を学習するための有望なソリューションとして現れてきた。
既存のフローベースのポリシーは、表現の崩壊、類似した視覚的表現を区別できないこと、そして正確な操作タスクの失敗に悩まされる。
本稿では,分散正規化をMeanFlowに統合した新しいフローマッチングフレームワークDM1を提案する。
論文 参考訳(メタデータ) (2025-10-09T07:12:20Z) - Idempotent Equilibrium Analysis of Hybrid Workflow Allocation: A Mathematical Schema for Future Work [0.0]
大規模なAIシステムは、仕事をどのように人と機械に分割するかを変えようとしている。
我々は、この位置を反復的タスクデリゲーション写像として定式化し、その過程が安定な等等均衡に収束することを示す。
我々は、「センタウル」な人間とAIの連携を促進する政策は、福祉を最大化する固定点に向けて経済を操ることができると論じる。
論文 参考訳(メタデータ) (2025-08-02T11:28:34Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Unity is Power: Semi-Asynchronous Collaborative Training of Large-Scale Models with Structured Pruning in Resource-Limited Clients [32.9644213081345]
本研究では,分散データセット上で大規模モデルを協調的に学習するための,巨大不均一な弱い計算能力の可能性を明らかにする。
本稿では,データ分散を考慮した構造化プルーニングとクロスブロック知識伝達機構を備えた,半非同期協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T02:17:50Z) - Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces [17.96094201655567]
X_t+1 = f(X_t, A_t, W_t)$。
ここでは、$X$、$A$、$W$はそれぞれ状態、アクション、ランダムノイズプロセスを表し、$f$は状態遷移を記述する既知の関数を表す。
本稿では,所定のあいまいさ集合内の雑音分布に対して,おそらく逆方向の摂動を許容する分布的に頑健な制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-17T07:37:36Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。