論文の概要: Sim2Real Bilevel Adaptation for Object Surface Classification using
Vision-Based Tactile Sensors
- arxiv url: http://arxiv.org/abs/2311.01380v1
- Date: Thu, 2 Nov 2023 16:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 12:32:44.445539
- Title: Sim2Real Bilevel Adaptation for Object Surface Classification using
Vision-Based Tactile Sensors
- Title(参考訳): sim2real bilevel adaptation for object surface classification using vision-based tactile sensors (情報ネットワーク)
- Authors: Gabriele M. Caddeo, Andrea Maracani, Paolo D. Alfano, Nicola A. Piga,
Lorenzo Rosasco and Lorenzo Natale
- Abstract要約: 我々は、物体表面を分類するための視覚ベースの触覚センサの分野におけるSim2Realギャップを橋渡しするために拡散モデルを訓練する。
我々は,YCBモデルセットから物体表面を均一にサンプリングして画像を生成するシミュレータを用いた。
これらのシミュレートされたイメージは、拡散モデルを使用して実際のドメインに変換され、自動的に分類器を訓練するためにラベル付けされる。
- 参考スコア(独自算出の注目度): 15.71945532506559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the Sim2Real gap in the field of vision-based
tactile sensors for classifying object surfaces. We train a Diffusion Model to
bridge this gap using a relatively small dataset of real-world images randomly
collected from unlabeled everyday objects via the DIGIT sensor. Subsequently,
we employ a simulator to generate images by uniformly sampling the surface of
objects from the YCB Model Set. These simulated images are then translated into
the real domain using the Diffusion Model and automatically labeled to train a
classifier. During this training, we further align features of the two domains
using an adversarial procedure. Our evaluation is conducted on a dataset of
tactile images obtained from a set of ten 3D printed YCB objects. The results
reveal a total accuracy of 81.9%, a significant improvement compared to the
34.7% achieved by the classifier trained solely on simulated images. This
demonstrates the effectiveness of our approach. We further validate our
approach using the classifier on a 6D object pose estimation task from tactile
data.
- Abstract(参考訳): 本稿では,物体表面の分類のための視覚ベース触覚センサの分野におけるSim2Realギャップに対処する。
我々はこのギャップを埋めるために拡散モデルを訓練し,無ラベルの日常物体からランダムに収集した実世界画像の比較的小さなデータセットをデジットセンサで構築した。
その後,YCBモデルセットから物体表面を均一にサンプリングして画像を生成するシミュレータを用いた。
これらのシミュレーション画像は拡散モデルを使って実領域に変換され、自動的に分類器を訓練するラベルが付けられる。
この訓練中、我々は2つのドメインの特徴をさらに相反する手順を用いて整列する。
3dプリントされたycbオブジェクト10セットから得られた触覚画像のデータセットを用いて評価を行った。
その結果、シミュレート画像のみを訓練した分類器が達成した34.7%と比較して、合計81.9%の精度が向上した。
これは我々のアプローチの有効性を示している。
触覚データから6次元オブジェクトのポーズ推定タスクの分類器を用いたアプローチをさらに検証する。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - 6-DoF Pose Estimation of Household Objects for Robotic Manipulation: An
Accessible Dataset and Benchmark [17.493403705281008]
本稿では,ロボット操作研究を中心に,既知の物体の6-DoFポーズ推定のための新しいデータセットを提案する。
我々は、おもちゃの食料品の3Dスキャンされたテクスチャモデルと、難解で散らかったシーンにおけるオブジェクトのRGBD画像を提供する。
半自動RGBD-to-modelテクスチャ対応を用いて、画像は数ミリ以内の精度で実証された地上の真実のポーズで注釈付けされる。
また,ADD-Hと呼ばれる新しいポーズ評価尺度を提案し,対象形状の対称性に頑健なハンガリー代入アルゴリズムについて,その明示的な列挙を必要とせず提案する。
論文 参考訳(メタデータ) (2022-03-11T01:19:04Z) - Sim2Air - Synthetic aerial dataset for UAV monitoring [2.1638817206926855]
テクスチャランダム化を適用し,形状に基づくオブジェクト表現のアクセント化を提案する。
すべてのパラメータでフォトリアリズムを持つ多様なデータセットは、3DモデリングソフトウェアであるBlenderで作成される。
論文 参考訳(メタデータ) (2021-10-11T10:36:33Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - A Sim2Real Deep Learning Approach for the Transformation of Images from
Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's
Eye View [0.0]
カメラの視点を鳥の視線(BEV)に変換すると、距離をより容易に推定できる。
本稿では,複数の車載カメラから補正された360度BEV画像を得る方法について述べる。
ニューラルネットワークのアプローチは、手動でラベル付けされたデータに頼るのではなく、実世界のデータに対してうまく一般化するように、合成データセットでトレーニングされる。
論文 参考訳(メタデータ) (2020-05-08T14:54:13Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。