論文の概要: Object Manipulation via Visual Target Localization
- arxiv url: http://arxiv.org/abs/2203.08141v1
- Date: Tue, 15 Mar 2022 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:01:50.958513
- Title: Object Manipulation via Visual Target Localization
- Title(参考訳): 視覚目標定位による物体操作
- Authors: Kiana Ehsani, Ali Farhadi, Aniruddha Kembhavi, Roozbeh Mottaghi
- Abstract要約: オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
- 参考スコア(独自算出の注目度): 64.05939029132394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object manipulation is a critical skill required for Embodied AI agents
interacting with the world around them. Training agents to manipulate objects,
poses many challenges. These include occlusion of the target object by the
agent's arm, noisy object detection and localization, and the target frequently
going out of view as the agent moves around in the scene. We propose
Manipulation via Visual Object Location Estimation (m-VOLE), an approach that
explores the environment in search for target objects, computes their 3D
coordinates once they are located, and then continues to estimate their 3D
locations even when the objects are not visible, thus robustly aiding the task
of manipulating these objects throughout the episode. Our evaluations show a
massive 3x improvement in success rate over a model that has access to the same
sensory suite but is trained without the object location estimator, and our
analysis shows that our agent is robust to noise in depth perception and agent
localization. Importantly, our proposed approach relaxes several assumptions
about idealized localization and perception that are commonly employed by
recent works in embodied AI -- an important step towards training agents for
object manipulation in the real world.
- Abstract(参考訳): オブジェクト操作は、Embodied AIエージェントが周囲の世界と対話するために必要な重要なスキルである。
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
これには、エージェントの腕によるターゲットオブジェクトの閉塞、ノイズのあるオブジェクトの検出と位置決め、エージェントがシーン内を動き回るときにターゲットが頻繁に視界から外れることが含まれる。
本研究では,対象物体を探索する環境を探索し,対象物が見えなくても3d座標を計算し,その3d位置を推定する手法であるvisual object location estimation (m-vole)を提案する。
対象位置推定器を使わずに同じ感覚スイートにアクセスできるモデルに対して,成功率を3倍に向上させた結果,被写体位置推定器を使わずにトレーニングを行った結果,被写体深度知覚とエージェント位置推定における雑音に頑健であることが判明した。
重要なことに、提案手法は、具体化aiにおける最近の研究で一般的に採用されている理想化されたローカライゼーションと認識に関するいくつかの仮定を緩和する。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - You Only Look at One: Category-Level Object Representations for Pose
Estimation From a Single Example [26.866356430469757]
所望のカテゴリから1つのオブジェクトだけを検査してカテゴリレベルのポーズ推定を行う手法を提案する。
本稿では,RGBDセンサを搭載したロボットマニピュレータを用いて,新しい物体のオンライン6次元ポーズ推定を行う。
論文 参考訳(メタデータ) (2023-05-22T01:32:24Z) - SafePicking: Learning Safe Object Extraction via Object-Level Mapping [19.502587411252946]
本稿では,オブジェクトレベルのマッピングと学習に基づくモーションプランニングを統合したSafePickingを提案する。
計画は、予測されたポーズの観測を受信する深いQネットワークと、動き軌跡を出力する深さに基づく高さマップを学習することによって行われる。
この結果から,ポーズの観察と深度感の融合により,モデルの性能とロバスト性が向上することが示唆された。
論文 参考訳(メタデータ) (2022-02-11T18:55:10Z) - Analysis of voxel-based 3D object detection methods efficiency for
real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。
実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。
この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文 参考訳(メタデータ) (2021-05-21T12:40:59Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。