論文の概要: D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation
- arxiv url: http://arxiv.org/abs/2505.04860v1
- Date: Thu, 08 May 2025 00:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.704845
- Title: D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation
- Title(参考訳): D-CODA:Coordinated Dual-Arm Data Augmentationのための拡散
- Authors: I-Chun Arthur Liu, Jason Chen, Gaurav Sukhatme, Daniel Seita,
- Abstract要約: Coordinated Dual-arm Data Augmentation (D-CODA) は、両眼の模倣学習に適したオフラインデータ拡張法である。
D-CODAは拡散モデルを訓練し、両腕に新しい視点一貫性のある手首カメラ画像を合成する。
グリップ・トゥ・オブジェクト・コンタクトを含む拡張状態が、双方向調整に適した制約に従うことを保証するために、制約付き最適化を採用している。
- 参考スコア(独自算出の注目度): 3.208603707050157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning bimanual manipulation is challenging due to its high dimensionality and tight coordination required between two arms. Eye-in-hand imitation learning, which uses wrist-mounted cameras, simplifies perception by focusing on task-relevant views. However, collecting diverse demonstrations remains costly, motivating the need for scalable data augmentation. While prior work has explored visual augmentation in single-arm settings, extending these approaches to bimanual manipulation requires generating viewpoint-consistent observations across both arms and producing corresponding action labels that are both valid and feasible. In this work, we propose Diffusion for COordinated Dual-arm Data Augmentation (D-CODA), a method for offline data augmentation tailored to eye-in-hand bimanual imitation learning that trains a diffusion model to synthesize novel, viewpoint-consistent wrist-camera images for both arms while simultaneously generating joint-space action labels. It employs constrained optimization to ensure that augmented states involving gripper-to-object contacts adhere to constraints suitable for bimanual coordination. We evaluate D-CODA on 5 simulated and 3 real-world tasks. Our results across 2250 simulation trials and 300 real-world trials demonstrate that it outperforms baselines and ablations, showing its potential for scalable data augmentation in eye-in-hand bimanual manipulation. Our project website is at: https://dcodaaug.github.io/D-CODA/.
- Abstract(参考訳): 2つの腕の間に必要となる高次元と厳密な調整のため、双方向操作の学習は困難である。
手首にカメラを装着したアイ・イン・ハンドの模倣学習は、タスク関連ビューに着目して知覚を単純化する。
しかし、多様なデモンストレーションの収集にはコストがかかり、スケーラブルなデータ拡張の必要性を動機付けている。
以前の研究では、単一アーム設定での視覚的増強について検討されてきたが、これらのアプローチをバイマニュアル操作に拡張するには、両腕をまたいだ視点一貫性のある観察と、有効かつ実現可能なアクションラベルの作成が必要である。
本研究では、両腕に新しい、視点に一貫性のある手首カメラ画像の合成を訓練し、同時に共同空間のアクションラベルを生成しながら、両腕に拡散モデルを訓練する、目と手の両方の模倣学習に適したオフラインデータ拡張法であるD-CODA(Diffusion for Coordinated Dual-arm Data Augmentation)を提案する。
グリップ・トゥ・オブジェクト・コンタクトを含む拡張状態が、双方向調整に適した制約に従うことを保証するために、制約付き最適化を採用している。
D-CODAを実世界の5つのタスクと3つのタスクで評価した。
2250件のシミュレーション実験と300件の実世界実験の結果、ベースラインとアブレーションを上回り、目と手の両方の操作におけるスケーラブルなデータ拡張の可能性を示している。
プロジェクトのWebサイトは以下の通り。
関連論文リスト
- CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations [11.604546089466734]
模倣学習を用いたロボットポリシーの学習には、高価なアクションラベル付きエキスパートのデモを大量に収集する必要がある。
有望なアプローチは、例えばビデオデモから教師なしの方法で潜在アクションラベルを学習するといった、ラベルなしの観測の多さを活用することである。
我々は、ラベルのない観測データから複雑な連続制御タスクを解くのに必要な2つの重要な要素を組み込んだ連続潜時行動モデル(CLAM)を設計する。
論文 参考訳(メタデータ) (2025-05-08T07:07:58Z) - HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination [10.982807572404166]
HOIGAzeは、拡張現実(XR)における手物体相互作用(HOI)中の視線推定のための学習的アプローチ
眼、手、頭部の動きは、HOIにおいて密接に調整されており、この調整は、視線訓練に最も有用なサンプルを特定するために利用することができる。
HOT3DとAriaデジタルツイン(ADT)のデータセット上でHOIGazeを評価し,最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-04-28T14:31:43Z) - Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels [10.827081942898506]
我々は,新しい自己学習弱弱視線推定フレームワーク(ST-WSGE)を紹介する。
画像とビデオのデータセットから静的および動的視線情報を同時に学習できるモダリティに依存しないアーキテクチャであるGaze Transformer (GaT)を提案する。
3次元映像データセットと2次元視線目標ラベルを追従タスクから組み合わせることで,本手法は以下の重要な貢献を達成できる。
論文 参考訳(メタデータ) (2025-02-27T16:35:25Z) - CycleHOI: Improving Human-Object Interaction Detection with Cycle Consistency of Detection and Generation [37.45945633515955]
本稿では,人間と物体の相互作用(HOI)の検出性能を高めるために,CycleHOIという新しい学習フレームワークを提案する。
我々の鍵となる設計は、HOI検出器のトレーニングのための新しいサイクル整合性損失を導入することである。
我々は,CycleHOIの有効性と一般化力を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-16T06:55:43Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。