論文の概要: Next-Best-View Estimation based on Deep Reinforcement Learning for
Active Object Classification
- arxiv url: http://arxiv.org/abs/2110.06766v2
- Date: Thu, 14 Oct 2021 18:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 11:07:24.983122
- Title: Next-Best-View Estimation based on Deep Reinforcement Learning for
Active Object Classification
- Title(参考訳): 能動物体分類のための深層強化学習に基づく次回のベストビュー推定
- Authors: Christian Korbach, Markus D. Solbach, Raphael Memmesheimer, Dietrich
Paulus, John K. Tsotsos
- Abstract要約: ロボットアームは、オブジェクトをエンドエフェクタに保持し、次のベストビューのシーケンスを検索して、対象を明示的に識別する。
我々は、深層強化学習の手法であるSoft Actor-Critic (SAC) を用いて、特定の対象に対する次のベストビューを学習する。
- 参考スコア(独自算出の注目度): 12.599533416395765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The presentation and analysis of image data from a single viewpoint are often
not sufficient to solve a task. Several viewpoints are necessary to obtain more
information. The next-best-view problem attempts to find the optimal viewpoint
with the greatest information gain for the underlying task. In this work, a
robot arm holds an object in its end-effector and searches for a sequence of
next-best-view to explicitly identify the object. We use Soft Actor-Critic
(SAC), a method of deep reinforcement learning, to learn these next-best-views
for a specific set of objects. The evaluation shows that an agent can learn to
determine an object pose to which the robot arm should move an object. This
leads to a viewpoint that provides a more accurate prediction to distinguish
such an object from other objects better. We make the code publicly available
for the scientific community and for reproducibility.
- Abstract(参考訳): 一つの視点からの画像データの提示と分析は、しばしばタスクを解くのに不十分である。
より多くの情報を得るためにはいくつかの視点が必要である。
次回のベストビュー問題は、基礎となるタスクに対して最大の情報ゲインを持つ最適な視点を見出そうとする。
本研究では,ロボットアームが対象物をエンドエフェクタに保持し,その対象を明確に識別する次回のベストビューのシーケンスを検索する。
我々は、深層強化学習の手法であるSoft Actor-Critic (SAC) を用いて、特定の対象に対する次のベストビューを学習する。
評価は、エージェントがロボットアームがオブジェクトを動かすべきポーズを決定することを学習できることを示しています。
これにより、そのようなオブジェクトと他のオブジェクトをよりよく区別するより正確な予測を提供する視点が導かれる。
私たちはこのコードを科学コミュニティと再現性のために公開しています。
関連論文リスト
- ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - You Only Look at One: Category-Level Object Representations for Pose
Estimation From a Single Example [26.866356430469757]
所望のカテゴリから1つのオブジェクトだけを検査してカテゴリレベルのポーズ推定を行う手法を提案する。
本稿では,RGBDセンサを搭載したロボットマニピュレータを用いて,新しい物体のオンライン6次元ポーズ推定を行う。
論文 参考訳(メタデータ) (2023-05-22T01:32:24Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - SafePicking: Learning Safe Object Extraction via Object-Level Mapping [19.502587411252946]
本稿では,オブジェクトレベルのマッピングと学習に基づくモーションプランニングを統合したSafePickingを提案する。
計画は、予測されたポーズの観測を受信する深いQネットワークと、動き軌跡を出力する深さに基づく高さマップを学習することによって行われる。
この結果から,ポーズの観察と深度感の融合により,モデルの性能とロバスト性が向上することが示唆された。
論文 参考訳(メタデータ) (2022-02-11T18:55:10Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。