論文の概要: PGDG: Physically Grounded Data Generation for Robust Bimanual Policy Learning from a Single Demonstration
- arxiv url: http://arxiv.org/abs/2605.21710v1
- Date: Wed, 20 May 2026 20:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.98435
- Title: PGDG: Physically Grounded Data Generation for Robust Bimanual Policy Learning from a Single Demonstration
- Title(参考訳): PGDG:ロバストなバイマラルポリシー学習のための物理接地データ生成
- Authors: Cunxi Dai, Haoran Chang, Aditya Nisal, Rahul Kumar, Guofei Chen, Tao Chen, Yuzhe Qin, Guanya Shi,
- Abstract要約: ゼロショットキュレーションを備えたデータ生成フレームワークPGDGを提案する。
PGDGは物理地上のサンプルとデータセットキュレーターを反復する。
シミュレーションと実世界転送の両方において、空間のみの増大を一貫して上回っている。
- 参考スコア(独自算出の注目度): 13.432047023375608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavior cloning for contact-rich bimanual manipulation remains challenging because diverse demonstrations are expensive to collect, and even small disturbances can push the system into off-manifold states where no recovery supervision is available. We propose PGDG, a data generation framework with zero-shot curation that expands a single demonstration into a compact dataset of physically plausible, successful, and diverse recovery behaviors without additional human labeling. PGDG iterates between a physics-grounded sampler and a dataset curator, where the curator selects informative, non-redundant, and recoverable behaviors to update the sampling distribution toward under-covered recovery modes, and the sampler draws physically plausible rollout candidates from this updated distribution and retains successful trajectories. To further improve data quality, PGDG applies short-horizon sampling-based control to relabel selected risky states with corrective actions. Across four bimanual manipulation tasks, PGDG consistently outperforms spatial-only augmentation in both simulation and zero-shot real-world transfer. On RotateBox-Pitch, success improves from 38% to 93% in simulation and from 35% to 82% in the real world. PGDG also enables effective foundation models fine-tuning such as GR00T, increasing success from 46% to 77%. Additional results are available in our website: https://cunxid.github.io/PGDG/.
- Abstract(参考訳): 多様なデモンストレーションの収集が高価であり、小さな障害でさえ、回復の監督ができないオフマンド状態にシステムを押し上げることができるため、コンタクトリッチなバイマニュアル操作のための行動クローニングは依然として困難である。
本稿では,ゼロショットキュレーションを施したデータ生成フレームワークPGDGを提案する。
PGDGは、物理接地されたサンプルラーとデータセットキュレーターの間を反復し、キュレーターは、サンプリング分布を未発見のリカバリモードに向けて更新するために、情報、非冗長、回復可能な振る舞いを選択し、サンプリングは、この更新された分布から物理的に妥当なロールアウト候補を引き出し、軌道を成功させる。
データ品質をさらに改善するため、PGDGは短水平サンプリングに基づく制御を、修正作用のある選択されたリスク状態の緩和に適用した。
4つの双方向操作タスクの中で、PGDGは、シミュレーションとゼロショットの実世界転送の両方において、空間のみの増大を一貫して上回っている。
RotateBox-Pitchでは、シミュレーションでは38%から93%、現実世界では35%から82%に改善されている。
PGDGはまた、GR00Tのような効果的な基礎モデルの微調整を可能にし、成功率は46%から77%に増加した。
追加の結果は、私たちのWebサイト(https://cunxid.github.io/PGDG/)で公開されています。
関連論文リスト
- Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文 参考訳(メタデータ) (2025-06-08T16:43:05Z) - Reliably Detecting Model Failures in Deployment Without Labels [14.069153343960734]
本稿では,デプロイ後劣化(PDD)モニタリングの問題点を定式化し,対処する。
本稿では,予測モデルの相違に基づく,実用的で効率的なモニタリングアルゴリズムD3Mを提案する。
標準ベンチマークと実世界の大規模内科データセットによる実証的な結果から,フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2025-06-05T13:56:18Z) - SMaRt: Improving GANs with Score Matching Regularity [114.43433222721025]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることがわかった。
提案手法は, 実世界のデータセットにおいて, 近似スコア関数として機能する事前学習拡散モデルを用いて, 最先端のGANの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。