論文の概要: One-Shot Object Localization Using Learnt Visual Cues via Siamese
Networks
- arxiv url: http://arxiv.org/abs/2012.13690v1
- Date: Sat, 26 Dec 2020 07:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:11:05.989827
- Title: One-Shot Object Localization Using Learnt Visual Cues via Siamese
Networks
- Title(参考訳): siameseネットワークを用いた学習視覚手がかりを用いたワンショット物体定位
- Authors: Sagar Gubbi Venkatesh and Bharadwaj Amrutur
- Abstract要約: 本研究では,新しい環境にローカライズされなければならない新規な関心対象を特定するために視覚的な手がかりを用いる。
Siameseネットワークを備えたエンドツーエンドのニューラルネットワークを使用して、キューを学び、関心のあるオブジェクトを推論し、新しい環境でローカライズします。
- 参考スコア(独自算出の注目度): 0.7832189413179361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A robot that can operate in novel and unstructured environments must be
capable of recognizing new, previously unseen, objects. In this work, a visual
cue is used to specify a novel object of interest which must be localized in
new environments. An end-to-end neural network equipped with a Siamese network
is used to learn the cue, infer the object of interest, and then to localize it
in new environments. We show that a simulated robot can pick-and-place novel
objects pointed to by a laser pointer. We also evaluate the performance of the
proposed approach on a dataset derived from the Omniglot handwritten character
dataset and on a small dataset of toys.
- Abstract(参考訳): 新規で非構造的な環境で動作可能なロボットは、これまで見えなかった新しい物体を認識する能力を持つ必要がある。
本研究では,新しい環境にローカライズされなければならない新規な関心対象を特定するために視覚的な手がかりを用いる。
siameseネットワークを備えたエンドツーエンドニューラルネットワークを使用して、キューを学習し、関心のあるオブジェクトを推論し、新たな環境にローカライズする。
シミュレーションロボットはレーザーポインターが指している新しい物体をピックアップ・アンド・プレースできることを示す。
また,オムニグロット手書き文字データセットと玩具の小さなデータセットから得られたデータセットに対する提案手法の性能評価を行った。
関連論文リスト
- SCIM: Simultaneous Clustering, Inference, and Mapping for Open-World
Semantic Scene Understanding [34.19666841489646]
本研究では,ロボットが未知の環境を探索する際に,新しいセマンティッククラスを自律的に発見し,既知のクラスの精度を向上させる方法を示す。
セグメンテーションモデルを更新するための自己教師付き学習信号を生成するために,マッピングとクラスタリングのための一般的なフレームワークを開発する。
特に、デプロイ中にクラスタリングパラメータをどのように最適化するかを示し、複数の観測モダリティの融合が、以前の作業と比べて新しいオブジェクト発見を改善することを示す。
論文 参考訳(メタデータ) (2022-06-21T18:41:51Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Object Recognition by a Minimally Pre-Trained System in the Process of
Environment Exploration [0.0]
システムによる抽象環境研究の過程を記述・評価する新奇性を更新する。
生体認知機構をモデル化せず,情報処理装置を備えたエージェントとみなす。
論文 参考訳(メタデータ) (2021-11-23T15:59:22Z) - My House, My Rules: Learning Tidying Preferences with Graph Neural
Networks [8.57914821832517]
グラフニューラルネットワーク層を用いた新しい変分オートエンコーダアーキテクチャNeatNetを提案する。
ユーザから低次元の潜在嗜好ベクトルを抽出し,シーンの配置を観察する。
任意のオブジェクトセットが与えられた場合、このベクトルを使用して、ユーザの空間的嗜好に合わせて調整されたアレンジを生成することができる。
論文 参考訳(メタデータ) (2021-11-04T19:17:19Z) - Learning to Regrasp by Learning to Place [19.13976401970985]
ロボットの現在の握りポーズが望ましい操作タスクの実行に失敗する場合、レギュラピングが必要である。
本研究では,ロボットが物体と支援環境の部分点雲を入力として取り出し,一連のピック・アンド・プレイス操作を出力するシステムを提案する。
我々は,多様な物体を再現することで,73.3%の成功率を達成できることを示す。
論文 参考訳(メタデータ) (2021-09-18T03:07:06Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - What Can I Do Here? Learning New Skills by Imagining Visual Affordances [128.65223577406587]
提案手法は,ロボットが可利用性の視覚的表現を学習する上で,どのような結果が得られるかを示す。
実際、事前データは、ロボットが不慣れな状況に遭遇したとき、そのモデルから潜在的な結果をサンプリングするように、どのような結果が得られるかを学ぶのに使用される。
本稿では, VAL(visuomotor affordance learning)を用いて, 生画像入力で動作する目標条件付きポリシーの学習を行う。
論文 参考訳(メタデータ) (2021-06-01T17:58:02Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Teaching Robots Novel Objects by Pointing at Them [1.1797787239802762]
本研究は,ロボットがこれまで遭遇したことのない新しい物体を,新たな興味の対象に指差して教えることを提案する。
終端ニューラルネットワークは、ポインティングハンドによって示される新しい関心のあるオブジェクトに出席し、その後、新しいシーンでオブジェクトをローカライズするために使用されます。
ロボットアームは、手を指して強調表示された新しいオブジェクトを操作できることを示します。
論文 参考訳(メタデータ) (2020-12-25T20:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。