論文の概要: Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning
- arxiv url: http://arxiv.org/abs/2403.10689v1
- Date: Fri, 15 Mar 2024 21:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:14:44.772399
- Title: Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning
- Title(参考訳): 視覚とハプティック・オーディオ・クロスモーダル・トランスファー学習を用いた潜時物体特徴認識
- Authors: Namiko Saito, Joao Moura, Hiroki Uchida, Sethu Vijayakumar,
- Abstract要約: この研究は、潜伏する観測不可能なオブジェクトの特性を認識することを目的としている。
視覚は一般的にロボットによる物体認識に使われるが、隠された物体を検出するには効果がない。
本稿では,視覚から触覚へのクロスモーダル・トランスファー学習手法を提案する。
- 参考スコア(独自算出の注目度): 9.178588671620963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognising the characteristics of objects while a robot handles them is crucial for adjusting motions that ensure stable and efficient interactions with containers. Ahead of realising stable and efficient robot motions for handling/transferring the containers, this work aims to recognise the latent unobservable object characteristics. While vision is commonly used for object recognition by robots, it is ineffective for detecting hidden objects. However, recognising objects indirectly using other sensors is a challenging task. To address this challenge, we propose a cross-modal transfer learning approach from vision to haptic-audio. We initially train the model with vision, directly observing the target object. Subsequently, we transfer the latent space learned from vision to a second module, trained only with haptic-audio and motor data. This transfer learning framework facilitates the representation of object characteristics using indirect sensor data, thereby improving recognition accuracy. For evaluating the recognition accuracy of our proposed learning framework we selected shape, position, and orientation as the object characteristics. Finally, we demonstrate online recognition of both trained and untrained objects using the humanoid robot Nextage Open.
- Abstract(参考訳): ロボットが物体を処理している間に物体の特徴を認識することは、コンテナとの安定的で効率的な相互作用を保証する動きを調整するために不可欠である。
コンテナのハンドリング/転送のための安定的で効率的なロボット動作の実現に先立ち、この研究は、潜伏する観測不可能な物体の特性を認識することを目的としている。
視覚はロボットによる物体認識によく用いられるが、隠された物体を検出するには効果がない。
しかし、他のセンサーを使って物体を間接的に認識することは難しい課題である。
この課題に対処するために,視覚から触覚へのクロスモーダル・トランスファー学習手法を提案する。
私たちはまず、ターゲットオブジェクトを直接観察して、ビジョンでモデルをトレーニングします。
その後、視覚から学習した潜伏空間を第2モジュールに転送し、触覚と運動データのみで訓練した。
この伝達学習フレームワークは、間接センサデータを用いた物体特性の表現を容易にし、認識精度を向上させる。
提案する学習フレームワークの認識精度を評価するため,対象特性として形状,位置,方向を選択した。
最後に,ヒューマノイドロボットNextage Openを用いて,トレーニング対象とトレーニング対象の両方をオンラインで認識する。
関連論文リスト
- Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Visual-Tactile Multimodality for Following Deformable Linear Objects
Using Reinforcement Learning [15.758583731036007]
本稿では,視覚と触覚入力を併用して変形可能な線形物体を追従するタスクを完遂する問題について検討する。
我々は,異なる感覚モーダルを用いた強化学習エージェントを作成し,その動作をどのように促進するかを検討する。
実験の結果,視覚入力と触覚入力の両方を使用することで,最大92%の症例で作業が完了することがわかった。
論文 参考訳(メタデータ) (2022-03-31T21:59:08Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Learning Relative Interactions through Imitation [0.0]
比較的少ないトレーニングデータを持つ単純なネットワークは、固定目的タスクにおいて非常に優れたパフォーマンスが得られることを示す。
また,センサ読み取りにおけるあいまいさ,特に対象物体の対称性が学習コントローラの動作に与える影響についても検討する。
論文 参考訳(メタデータ) (2021-09-24T15:18:34Z) - Maintaining a Reliable World Model using Action-aware Perceptual
Anchoring [4.971403153199917]
物体が見えなくなったり見えなくなったりしても、ロボットは周囲のモデルを維持する必要がある。
これは、環境内のオブジェクトを表すシンボルに知覚情報をアンカーする必要がある。
本稿では,ロボットが物体を永続的に追跡できる行動認識型知覚アンカーのモデルを提案する。
論文 参考訳(メタデータ) (2021-07-07T06:35:14Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z) - Careful with That! Observation of Human Movements to Estimate Objects
Properties [106.925705883949]
我々は、物体の重さについての洞察を伝える人間の運動行動の特徴に焦点を当てる。
最後の目標は、ロボットがオブジェクトハンドリングに必要なケアの度合いを自律的に推測できるようにすることです。
論文 参考訳(メタデータ) (2021-03-02T08:14:56Z) - Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。
標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T18:26:07Z) - A Transfer Learning Approach to Cross-Modal Object Recognition: From
Visual Observation to Robotic Haptic Exploration [13.482253411041292]
本稿では,ロボットによる能動探査によるクロスモーダルビジュオ触覚物体認識の問題点について紹介する。
そこで我々は,ビジュオ触覚の共通表現の発見,適切な特徴セットの定義,ドメイン間の特徴の移動,オブジェクトの分類という4つのステップからなるアプローチを提案する。
提案手法は94.7%の精度を達成しており、これはモノモーダルケースの精度に匹敵するものである。
論文 参考訳(メタデータ) (2020-01-18T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。