論文の概要: Evaluating Robustness of Visual Representations for Object Assembly Task
Requiring Spatio-Geometrical Reasoning
- arxiv url: http://arxiv.org/abs/2310.09943v3
- Date: Tue, 6 Feb 2024 20:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:01:48.920735
- Title: Evaluating Robustness of Visual Representations for Object Assembly Task
Requiring Spatio-Geometrical Reasoning
- Title(参考訳): 空間幾何学的推論を必要とするオブジェクトアセンブリタスクにおける視覚的表現のロバスト性評価
- Authors: Chahyon Ku, Carl Winge, Ryan Diaz, Wentao Yuan, Karthik Desingh
- Abstract要約: 本稿では,オブジェクト・アセンブリ・タスクのコンテキストにおける視覚表現の堅牢性の評価と評価に焦点をあてる。
我々は視覚前訓練モデルを視覚エンコーダとして利用するビズモータ政策学習の一般的な枠組みを用いる。
本研究は、両腕操作装置に適用する場合、特にグリップ変動に対して、この枠組みの頑健性について検討する。
- 参考スコア(独自算出の注目度): 8.626019848533707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper primarily focuses on evaluating and benchmarking the robustness of
visual representations in the context of object assembly tasks. Specifically,
it investigates the alignment and insertion of objects with geometrical
extrusions and intrusions, commonly referred to as a peg-in-hole task. The
accuracy required to detect and orient the peg and the hole geometry in SE(3)
space for successful assembly poses significant challenges. Addressing this, we
employ a general framework in visuomotor policy learning that utilizes visual
pretraining models as vision encoders. Our study investigates the robustness of
this framework when applied to a dual-arm manipulation setup, specifically to
the grasp variations. Our quantitative analysis shows that existing pretrained
models fail to capture the essential visual features necessary for this task.
However, a visual encoder trained from scratch consistently outperforms the
frozen pretrained models. Moreover, we discuss rotation representations and
associated loss functions that substantially improve policy learning. We
present a novel task scenario designed to evaluate the progress in visuomotor
policy learning, with a specific focus on improving the robustness of intricate
assembly tasks that require both geometrical and spatial reasoning. Videos,
additional experiments, dataset, and code are available at
https://bit.ly/geometric-peg-in-hole .
- Abstract(参考訳): 本稿では主に、オブジェクトアセンブリタスクのコンテキストにおける視覚表現の堅牢性の評価とベンチマークに焦点をあてる。
具体的には、一般にpeg-in-holeタスクと呼ばれる幾何学的押出しと侵入を伴う物体のアライメントと挿入について検討する。
成功組立のためにSE(3)空間のペグと穴形状を検出・オリエントするために必要な精度は大きな課題となる。
そこで我々はヴィジュアル・エンコーダとして視覚前訓練モデルを利用するvisosomotor policy learningの汎用フレームワークを採用している。
本研究は,両腕操作設定,特に把持変動に対して適用した場合のロバスト性について検討する。
我々の定量的分析は、既存の事前学習モデルでは、このタスクに必要な視覚的特徴を捉えることができないことを示している。
しかし、スクラッチから訓練されたビジュアルエンコーダは、凍結した事前訓練されたモデルよりも一貫して優れている。
さらに、政策学習を大幅に改善する回転表現と関連する損失関数について論じる。
本稿では,幾何学的・空間的推論を必要とする複雑な組み立て作業のロバスト性向上に特に焦点をあてた,visosomotor policy learningの進歩を評価するための新しいタスクシナリオを提案する。
ビデオ、追加の実験、データセット、コードはhttps://bit.ly/geometric-peg-in-hole.com/で入手できる。
関連論文リスト
- AugInsert: Learning Robust Visual-Force Policies via Data Augmentation for Object Assembly Tasks [7.631503105866245]
本稿では,高精度オブジェクト集合タスクの文脈における堅牢な視覚力ポリシーの学習に主眼を置いている。
我々は,オンラインデータ拡張を通じて人間による実演を拡大することにより,限られた専門家データに基づいて多感覚入力によるコンタクトリッチな操作ポリシーを学習することを目指している。
論文 参考訳(メタデータ) (2024-10-19T04:19:52Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - PEEKABOO: Hiding parts of an image for unsupervised object localization [7.161489957025654]
教師なしの方法でオブジェクトをローカライズすることは、重要な視覚情報がないために大きな課題となる。
教師なしオブジェクトローカライゼーションのための単段階学習フレームワークPEEKABOOを提案する。
キーとなるアイデアは、画像の一部を選択的に隠し、残りの画像情報を活用して、明示的な監督なしにオブジェクトの位置を推測することである。
論文 参考訳(メタデータ) (2024-07-24T20:35:20Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。
標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T18:26:07Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。