論文の概要: Improving Robotic Manipulation Robustness via NICE Scene Surgery
- arxiv url: http://arxiv.org/abs/2511.22777v1
- Date: Thu, 27 Nov 2025 22:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.718883
- Title: Improving Robotic Manipulation Robustness via NICE Scene Surgery
- Title(参考訳): NICE手術によるロボットマニピュレーションロバストネスの改善
- Authors: Sajjad Pakdamansavoji, Mozhgan Pourkeshavarz, Adam Sigal, Zhiyuan Li, Rui Heng Yang, Amir Rasouli,
- Abstract要約: 我々は、コンテキスト拡張(NICE)のための、効果的でスケーラブルなフレームワーク、博物論的インペインティング(Naturistic Inpainting)を提案する。
NICEは3つの編集操作、オブジェクトのリプレース、リプライ、非ターゲットオブジェクトの削除を行う。
従来のアプローチとは異なり、NICEは追加のロボットデータ収集、シミュレータアクセス、カスタムモデルトレーニングを必要としないため、既存のロボットデータセットに容易に適用できる。
- 参考スコア(独自算出の注目度): 22.613189865166557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robust visuomotor policies for robotic manipulation remains a challenge in real-world settings, where visual distractors can significantly degrade performance and safety. In this work, we propose an effective and scalable framework, Naturalistic Inpainting for Context Enhancement (NICE). Our method minimizes out-of-distribution (OOD) gap in imitation learning by increasing visual diversity through construction of new experiences using existing demonstrations. By utilizing image generative frameworks and large language models, NICE performs three editing operations, object replacement, restyling, and removal of distracting (non-target) objects. These changes preserve spatial relationships without obstructing target objects and maintain action-label consistency. Unlike previous approaches, NICE requires no additional robot data collection, simulator access, or custom model training, making it readily applicable to existing robotic datasets. Using real-world scenes, we showcase the capability of our framework in producing photo-realistic scene enhancement. For downstream tasks, we use NICE data to finetune a vision-language model (VLM) for spatial affordance prediction and a vision-language-action (VLA) policy for object manipulation. Our evaluations show that NICE successfully minimizes OOD gaps, resulting in over 20% improvement in accuracy for affordance prediction in highly cluttered scenes. For manipulation tasks, success rate increases on average by 11% when testing in environments populated with distractors in different quantities. Furthermore, we show that our method improves visual robustness, lowering target confusion by 6%, and enhances safety by reducing collision rate by 7%.
- Abstract(参考訳): ロボット操作のためのロバストな振動子ポリシーを学習することは、視覚障害者が性能と安全性を著しく低下させることができる現実世界の設定において、依然として課題である。
本研究では,NICE(Naturalistic Inpainting for Context Enhancement)という,効果的でスケーラブルなフレームワークを提案する。
本手法は,既存の実演を用いた新しい体験の構築を通じて,視覚的多様性を増大させることにより,模倣学習におけるアウト・オブ・ディストリビューション(OOD)ギャップを最小化する。
画像生成フレームワークと大規模言語モデルを利用することで、NICEは3つの編集操作、オブジェクト置換、リプライ、非ターゲットオブジェクトの削除を行う。
これらの変化は、対象オブジェクトを妨害することなく空間的関係を保ち、アクションラベルの一貫性を維持する。
従来のアプローチとは異なり、NICEは追加のロボットデータ収集、シミュレータアクセス、カスタムモデルトレーニングを必要としないため、既存のロボットデータセットに容易に適用できる。
実世界のシーンを用いて、写真リアルなシーンエンハンスメントを実現するためのフレームワークの能力を示す。
下流タスクでは,視覚言語モデル(VLM)とオブジェクト操作のための視覚言語アクション(VLA)ポリシーをNICEデータを用いて微調整する。
評価の結果,NICEはOODギャップの最小化に成功し,高度に散らばったシーンにおいて,価格予測の精度が20%以上向上した。
操作タスクでは、異なる量で障害のある環境でのテストを行うと、成功率が平均11%向上する。
さらに,本手法は視力の向上,目標混乱の6%低減,衝突速度の7%低減による安全性の向上を図っている。
関連論文リスト
- CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining [4.039082584778385]
3次元多視点動作記述型ロボットマニピュレーション事前学習(CLAMP)のコントラスト学習について紹介する。
RGB-D画像とカメラ外部画像から計算した統合点雲から、深度と3次元座標によるマルチビュー4チャンネル画像観察を再レンダリングした。
事前訓練されたエンコーダは、オブジェクトの幾何学的および位置的情報とロボットのアクションパターンを関連付けることを学習する。
論文 参考訳(メタデータ) (2026-01-31T23:32:54Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation [15.811034169990423]
VENTURAは、インターネットに制約された画像拡散モデルを微調整して経路計画を行う視覚制御ナビゲーションシステムである。
軽量な行動閉鎖ポリシーは、これらの視覚計画を実行可能な軌道に置き、自然言語の指示に従うインターフェースを生成する。
大規模な実世界の評価において、VENTURAは、オブジェクト到達、障害物回避、地形優先タスクに基づく最先端の基盤モデルよりも優れている。
論文 参考訳(メタデータ) (2025-10-01T19:21:28Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - 3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。
本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。
提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文 参考訳(メタデータ) (2025-05-09T05:32:40Z) - Precise Mobile Manipulation of Small Everyday Objects [11.45585588241935]
我々は,小型物体の操作を伴う精密な作業にモバイルマニピュレータが取り組むことができるクローズドループフレームワークであるServoing with Vision Models (SVM)を開発した。
SVMは最先端のビジョン基盤モデルを使用して、視覚サーボのための3Dターゲットを生成し、新しい環境で多様なタスクを可能にする。
72の異なるオブジェクトインスタンスを含む6つの建物にまたがる10の環境における大規模評価実験を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:17Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。