論文の概要: AugInsert: Learning Robust Visual-Force Policies via Data Augmentation for Object Assembly Tasks
- arxiv url: http://arxiv.org/abs/2410.14968v2
- Date: Fri, 01 Aug 2025 01:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 14:06:53.28305
- Title: AugInsert: Learning Robust Visual-Force Policies via Data Augmentation for Object Assembly Tasks
- Title(参考訳): AugInsert: オブジェクトアセンブリタスクのためのデータ拡張によるロバストなビジュアルフォースポリシーの学習
- Authors: Ryan Diaz, Adam Imdieke, Vivek Veeriah, Karthik Desingh,
- Abstract要約: 本研究は,ペグ・イン・ホール・アセンブリ・タスクにおける多感覚ポリシーの堅牢性を評価することを目的とした,新しい因子に基づく評価フレームワークを提案する。
オブジェクトアセンブリにおいて,どの要素が最大の一般化課題となるのかを考察し,簡易な多感覚データ拡張手法について検討する。
我々は、力覚センサーが、我々のコンタクトリッチアセンブリータスクにおいて最も情報に富むモダリティであり、視覚が最も情報に乏しいことを発見した。
- 参考スコア(独自算出の注目度): 7.631503105866245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operating in unstructured environments like households requires robotic policies that are robust to out-of-distribution conditions. Although much work has been done in evaluating robustness for visuomotor policies, the robustness evaluation of a multisensory approach that includes force-torque sensing remains largely unexplored. This work introduces a novel, factor-based evaluation framework with the goal of assessing the robustness of multisensory policies in a peg-in-hole assembly task. To this end, we develop a multisensory policy framework utilizing the Perceiver IO architecture to learn the task. We investigate which factors pose the greatest generalization challenges in object assembly and explore a simple multisensory data augmentation technique to enhance out-of-distribution performance. We provide a simulation environment enabling controlled evaluation of these factors. Our results reveal that multisensory variations such as Grasp Pose present the most significant challenges for robustness, and naive unisensory data augmentation applied independently to each sensory modality proves insufficient to overcome them. Additionally, we find force-torque sensing to be the most informative modality for our contact-rich assembly task, with vision being the least informative. Finally, we briefly discuss supporting real-world experimental results. For additional experiments and qualitative results, we refer to the project webpage https://rpm-lab-umn.github.io/auginsert/ .
- Abstract(参考訳): 家庭のような非構造環境での運用には、アウト・オブ・ディストリビューション条件に対して堅牢なロボットポリシーが必要である。
ビジュモータ政策のロバスト性を評価するために多くの研究がなされてきたが、力トルクセンシングを含む多感覚アプローチのロバスト性評価はいまだに未解明のままである。
本研究は,ペグ・イン・ホール・アセンブリ・タスクにおける多感覚ポリシーの堅牢性を評価することを目的とした,新しい因子に基づく評価フレームワークを提案する。
そこで我々はPerceiver IOアーキテクチャを利用した多感覚ポリシーフレームワークを開発し,その課題を学習する。
オブジェクトの集合において,どの要素が最大の一般化課題となるのかを考察し,分散処理性能を高めるために,単純な多感覚データ拡張手法を探索する。
これらの要因を制御した評価を可能にするシミュレーション環境を提供する。
以上の結果から,Grasp Poseのような多感覚の変動は頑健性にとって最も重要な課題であり,各感覚モダリティに独立して適用された無感覚データ拡張は,それらを克服するには不十分であることが判明した。
さらに, 力覚センサは, 最も情報に富む組立作業において, 最も情報に富むモダリティであり, 視覚は最も情報に富むものとなる。
最後に,実世界の実験結果のサポートについて概説する。
さらなる実験と質的な結果については、プロジェクトのWebページ https://rpm-lab-umn.github.io/auginsert/ を参照してください。
関連論文リスト
- SatelliteCalculator: A Multi-Task Vision Foundation Model for Quantitative Remote Sensing Inversion [4.824120664293887]
定量的リモートセンシングインバージョンのための第1ビジョン基盤モデルであるサテライト計算機を紹介する。
物理的に定義されたインデックスアダプタを利用することで、100万以上のペアのサンプルからなる大規模なデータセットを自動的に構築する。
実験により、サテライト計算機は全てのタスクの競争精度を向上し、推論コストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-04-18T03:48:04Z) - Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.90370736032115]
本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文 参考訳(メタデータ) (2025-03-21T08:40:35Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation [11.880519765681408]
本稿では,音声操作のための大規模部分中心データセットを提案する。
写真リアリスティックな素材のランダム化と、パート指向でシーンレベルのアクション可能なインタラクションポーズの詳細なアノテーションが特徴である。
一般化可能なオブジェクト操作のための,優れた,堅牢な性能を実現する,新しいモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:11:23Z) - Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation [52.36691633451968]
ViTaM-Dは動的手動物体相互作用再構成のための視覚触覚フレームワークである。
DF-Fieldは分散力認識型接触表現モデルである。
剛性および変形性のある物体再構成におけるViTaM-Dの優れた性能について検討した。
論文 参考訳(メタデータ) (2024-11-14T16:29:45Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。
データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T19:32:39Z) - Evaluating Robustness of Visual Representations for Object Assembly Task
Requiring Spatio-Geometrical Reasoning [8.626019848533707]
本稿では,オブジェクト・アセンブリ・タスクのコンテキストにおける視覚表現の堅牢性の評価と評価に焦点をあてる。
我々は視覚前訓練モデルを視覚エンコーダとして利用するビズモータ政策学習の一般的な枠組みを用いる。
本研究は、両腕操作装置に適用する場合、特にグリップ変動に対して、この枠組みの頑健性について検討する。
論文 参考訳(メタデータ) (2023-10-15T20:41:07Z) - Robotic Handling of Compliant Food Objects by Robust Learning from
Demonstration [79.76009817889397]
本稿では,食品に適合する物体をロボットで把握する上で,実証からの学習(LfD)に基づく頑健な学習方針を提案する。
教師の意図した方針を推定し,無矛盾な実演を自動的に除去するLfD学習ポリシーを提案する。
提案されたアプローチは、前述の業界セクターで幅広い応用が期待できる。
論文 参考訳(メタデータ) (2023-09-22T13:30:26Z) - Understanding Data Augmentation from a Robustness Perspective [10.063624819905508]
データ拡張は、モデルの堅牢性を増幅するための重要なテクニックとして際立っている。
この写本は、この現象を理解するための理論的および実証的なアプローチを採っている。
我々の経験的評価は、エンブレマ的なデータ拡張戦略の複雑なメカニズムを解明するものである。
これらの洞察は、視覚認識タスクにおけるモデルの安全性と堅牢性を再評価する新しいレンズを提供する。
論文 参考訳(メタデータ) (2023-09-07T10:54:56Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Visual-Tactile Multimodality for Following Deformable Linear Objects
Using Reinforcement Learning [15.758583731036007]
本稿では,視覚と触覚入力を併用して変形可能な線形物体を追従するタスクを完遂する問題について検討する。
我々は,異なる感覚モーダルを用いた強化学習エージェントを作成し,その動作をどのように促進するかを検討する。
実験の結果,視覚入力と触覚入力の両方を使用することで,最大92%の症例で作業が完了することがわかった。
論文 参考訳(メタデータ) (2022-03-31T21:59:08Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Understanding Multi-Modal Perception Using Behavioral Cloning for
Peg-In-a-Hole Insertion Tasks [21.275342989110978]
本稿では,実世界の組立作業における制御器を学習するために,複数のセンサモードが組み合わさった場合の利点について検討する。
動作クローン法の性能を向上させるために, マルチステップ・アヘッド・ロス関数を提案する。
論文 参考訳(メタデータ) (2020-07-22T19:46:51Z) - Gaining a Sense of Touch. Physical Parameters Estimation using a Soft
Gripper and Neural Networks [3.0892724364965005]
ロボットグリップを用いた物体との直接相互作用の測定における深層学習アルゴリズムを用いた物理パラメータ推定に関する十分な研究はない。
本研究では、剛性係数の回帰をトレーニング可能なシステムを提案し、物理シミュレータ環境を用いて広範な実験を行った。
本システムでは,Yale OpenHandソフトグリップを用いて,指に装着した慣性測定ユニット(IMU)の読み値に基づいて,物体の硬さを確実に推定することができる。
論文 参考訳(メタデータ) (2020-03-02T11:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。