論文の概要: Improving Robotic Manipulation Robustness via NICE Scene Surgery
- arxiv url: http://arxiv.org/abs/2511.22777v1
- Date: Thu, 27 Nov 2025 22:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.718883
- Title: Improving Robotic Manipulation Robustness via NICE Scene Surgery
- Title(参考訳): NICE手術によるロボットマニピュレーションロバストネスの改善
- Authors: Sajjad Pakdamansavoji, Mozhgan Pourkeshavarz, Adam Sigal, Zhiyuan Li, Rui Heng Yang, Amir Rasouli,
- Abstract要約: 我々は、コンテキスト拡張(NICE)のための、効果的でスケーラブルなフレームワーク、博物論的インペインティング(Naturistic Inpainting)を提案する。
NICEは3つの編集操作、オブジェクトのリプレース、リプライ、非ターゲットオブジェクトの削除を行う。
従来のアプローチとは異なり、NICEは追加のロボットデータ収集、シミュレータアクセス、カスタムモデルトレーニングを必要としないため、既存のロボットデータセットに容易に適用できる。
- 参考スコア(独自算出の注目度): 22.613189865166557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robust visuomotor policies for robotic manipulation remains a challenge in real-world settings, where visual distractors can significantly degrade performance and safety. In this work, we propose an effective and scalable framework, Naturalistic Inpainting for Context Enhancement (NICE). Our method minimizes out-of-distribution (OOD) gap in imitation learning by increasing visual diversity through construction of new experiences using existing demonstrations. By utilizing image generative frameworks and large language models, NICE performs three editing operations, object replacement, restyling, and removal of distracting (non-target) objects. These changes preserve spatial relationships without obstructing target objects and maintain action-label consistency. Unlike previous approaches, NICE requires no additional robot data collection, simulator access, or custom model training, making it readily applicable to existing robotic datasets. Using real-world scenes, we showcase the capability of our framework in producing photo-realistic scene enhancement. For downstream tasks, we use NICE data to finetune a vision-language model (VLM) for spatial affordance prediction and a vision-language-action (VLA) policy for object manipulation. Our evaluations show that NICE successfully minimizes OOD gaps, resulting in over 20% improvement in accuracy for affordance prediction in highly cluttered scenes. For manipulation tasks, success rate increases on average by 11% when testing in environments populated with distractors in different quantities. Furthermore, we show that our method improves visual robustness, lowering target confusion by 6%, and enhances safety by reducing collision rate by 7%.
- Abstract(参考訳): ロボット操作のためのロバストな振動子ポリシーを学習することは、視覚障害者が性能と安全性を著しく低下させることができる現実世界の設定において、依然として課題である。
本研究では,NICE(Naturalistic Inpainting for Context Enhancement)という,効果的でスケーラブルなフレームワークを提案する。
本手法は,既存の実演を用いた新しい体験の構築を通じて,視覚的多様性を増大させることにより,模倣学習におけるアウト・オブ・ディストリビューション(OOD)ギャップを最小化する。
画像生成フレームワークと大規模言語モデルを利用することで、NICEは3つの編集操作、オブジェクト置換、リプライ、非ターゲットオブジェクトの削除を行う。
これらの変化は、対象オブジェクトを妨害することなく空間的関係を保ち、アクションラベルの一貫性を維持する。
従来のアプローチとは異なり、NICEは追加のロボットデータ収集、シミュレータアクセス、カスタムモデルトレーニングを必要としないため、既存のロボットデータセットに容易に適用できる。
実世界のシーンを用いて、写真リアルなシーンエンハンスメントを実現するためのフレームワークの能力を示す。
下流タスクでは,視覚言語モデル(VLM)とオブジェクト操作のための視覚言語アクション(VLA)ポリシーをNICEデータを用いて微調整する。
評価の結果,NICEはOODギャップの最小化に成功し,高度に散らばったシーンにおいて,価格予測の精度が20%以上向上した。
操作タスクでは、異なる量で障害のある環境でのテストを行うと、成功率が平均11%向上する。
さらに,本手法は視力の向上,目標混乱の6%低減,衝突速度の7%低減による安全性の向上を図っている。
関連論文リスト
- VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation [15.811034169990423]
VENTURAは、インターネットに制約された画像拡散モデルを微調整して経路計画を行う視覚制御ナビゲーションシステムである。
軽量な行動閉鎖ポリシーは、これらの視覚計画を実行可能な軌道に置き、自然言語の指示に従うインターフェースを生成する。
大規模な実世界の評価において、VENTURAは、オブジェクト到達、障害物回避、地形優先タスクに基づく最先端の基盤モデルよりも優れている。
論文 参考訳(メタデータ) (2025-10-01T19:21:28Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - 3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。
本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。
提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文 参考訳(メタデータ) (2025-05-09T05:32:40Z) - Precise Mobile Manipulation of Small Everyday Objects [11.45585588241935]
我々は,小型物体の操作を伴う精密な作業にモバイルマニピュレータが取り組むことができるクローズドループフレームワークであるServoing with Vision Models (SVM)を開発した。
SVMは最先端のビジョン基盤モデルを使用して、視覚サーボのための3Dターゲットを生成し、新しい環境で多様なタスクを可能にする。
72の異なるオブジェクトインスタンスを含む6つの建物にまたがる10の環境における大規模評価実験を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:17Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。