論文の概要: A Transfer Learning Approach to Cross-Modal Object Recognition: From
Visual Observation to Robotic Haptic Exploration
- arxiv url: http://arxiv.org/abs/2001.06673v1
- Date: Sat, 18 Jan 2020 14:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 05:31:15.301490
- Title: A Transfer Learning Approach to Cross-Modal Object Recognition: From
Visual Observation to Robotic Haptic Exploration
- Title(参考訳): クロスモーダル物体認識のための伝達学習アプローチ:視覚観測からロボット触覚探索へ
- Authors: Pietro Falco, Shuang Lu, Ciro Natale, Salvatore Pirozzi, and Dongheui
Lee
- Abstract要約: 本稿では,ロボットによる能動探査によるクロスモーダルビジュオ触覚物体認識の問題点について紹介する。
そこで我々は,ビジュオ触覚の共通表現の発見,適切な特徴セットの定義,ドメイン間の特徴の移動,オブジェクトの分類という4つのステップからなるアプローチを提案する。
提案手法は94.7%の精度を達成しており、これはモノモーダルケースの精度に匹敵するものである。
- 参考スコア(独自算出の注目度): 13.482253411041292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce the problem of cross-modal visuo-tactile object
recognition with robotic active exploration. With this term, we mean that the
robot observes a set of objects with visual perception and, later on, it is
able to recognize such objects only with tactile exploration, without having
touched any object before. Using a machine learning terminology, in our
application we have a visual training set and a tactile test set, or vice
versa. To tackle this problem, we propose an approach constituted by four
steps: finding a visuo-tactile common representation, defining a suitable set
of features, transferring the features across the domains, and classifying the
objects. We show the results of our approach using a set of 15 objects,
collecting 40 visual examples and five tactile examples for each object. The
proposed approach achieves an accuracy of 94.7%, which is comparable with the
accuracy of the monomodal case, i.e., when using visual data both as training
set and test set. Moreover, it performs well compared to the human ability,
which we have roughly estimated carrying out an experiment with ten
participants.
- Abstract(参考訳): 本研究では,ロボットによる能動探査によるクロスモーダルビジュオ触覚物体認識の問題を紹介する。
この用語でいうと、ロボットは視覚的知覚を持つ物体の集合を観察し、その後、触覚的な探索でのみ認識でき、それまでの物体に触れることなく、そのような物体を認識できる。
機械学習の用語を使用すると、私たちのアプリケーションでは、視覚的なトレーニングセットと触覚テストセットがあります。
この問題に取り組むために,視覚触覚共通表現の探索,適切な特徴セットの定義,ドメイン間の特徴の転送,オブジェクトの分類という4つのステップからなるアプローチを提案する。
このアプローチの結果を15個のオブジェクトのセットで示し,各オブジェクトに対して40個の視覚的な例と5つの触覚的例を収集した。
提案手法は94.7%の精度を実現しており、トレーニングセットとテストセットの両方で視覚的データを使用する場合のモノモダルケースの精度に匹敵する。
さらに,10人の被験者による実験を大まかに見積もった人間の能力と比較すると,その性能は良好である。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning [9.178588671620963]
この研究は、潜伏する観測不可能なオブジェクトの特性を認識することを目的としている。
視覚は一般的にロボットによる物体認識に使われるが、隠された物体を検出するには効果がない。
本稿では,視覚から触覚へのクロスモーダル・トランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:18:14Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - The ObjectFolder Benchmark: Multisensory Learning with Neural and Real
Objects [51.22194706674366]
マルチセンサーなオブジェクト中心学習のための10のタスクからなるベンチマークスイートであるObject Benchmarkを紹介した。
また,100個の実世界の家庭用オブジェクトに対するマルチセンサー計測を含む,オブジェクトリアルデータセットについても紹介する。
論文 参考訳(メタデータ) (2023-06-01T17:51:22Z) - Visual-Tactile Multimodality for Following Deformable Linear Objects
Using Reinforcement Learning [15.758583731036007]
本稿では,視覚と触覚入力を併用して変形可能な線形物体を追従するタスクを完遂する問題について検討する。
我々は,異なる感覚モーダルを用いた強化学習エージェントを作成し,その動作をどのように促進するかを検討する。
実験の結果,視覚入力と触覚入力の両方を使用することで,最大92%の症例で作業が完了することがわかった。
論文 参考訳(メタデータ) (2022-03-31T21:59:08Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。