論文の概要: A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic
Search
- arxiv url: http://arxiv.org/abs/2206.13396v1
- Date: Tue, 21 Jun 2022 02:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 00:50:14.225178
- Title: A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic
Search
- Title(参考訳): 視覚再構成のための簡便なアプローチ:3次元マッピングと意味検索
- Authors: Brandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Gaurav S.
Sukhatme, Ruslan Salakhutdinov
- Abstract要約: 視覚的な部屋の配置は、視覚的な入力のみに基づいてオブジェクトを並べ替えるエージェントの能力を評価する。
本稿では,(1)どのオブジェクトを並べ替える必要があるかを探索し,マッピングし,(2)タスクが完了するまで各オブジェクトを並べ替える,という方法を提案する。
- 参考スコア(独自算出の注目度): 71.14527779661181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physically rearranging objects is an important capability for embodied
agents. Visual room rearrangement evaluates an agent's ability to rearrange
objects in a room to a desired goal based solely on visual input. We propose a
simple yet effective method for this problem: (1) search for and map which
objects need to be rearranged, and (2) rearrange each object until the task is
complete. Our approach consists of an off-the-shelf semantic segmentation
model, voxel-based semantic map, and semantic search policy to efficiently find
objects that need to be rearranged. On the AI2-THOR Rearrangement Challenge,
our method improves on current state-of-the-art end-to-end reinforcement
learning-based methods that learn visual rearrangement policies from 0.53%
correct rearrangement to 16.56%, using only 2.7% as many samples from the
environment.
- Abstract(参考訳): 物理的に再配置された物体は、エンボディード・エージェントにとって重要な能力である。
視覚室再構成は、視覚入力のみに基づいて、部屋内の物体を所望の目標に並べ替えるエージェントの能力を評価する。
この問題に対して,(1)どのオブジェクトを再配置する必要があるかを探索し,マップし,(2)タスクが完了するまで各オブジェクトを並べ替える手法を提案する。
提案手法は,市販のセマンティクスセグメンテーションモデル,voxelに基づくセマンティクスマップ,セマンティクス検索ポリシからなり,再配置が必要なオブジェクトを効率的に検索する。
ai2thor再配置課題において,本手法は,環境からのサンプル2.7%のみを用いて,0.53%の正確な再配置から16.56%までの視覚的再配置方針を学習する,最先端のエンドツーエンド強化学習ベース手法を改善した。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Probable Object Location (POLo) Score Estimation for Efficient Object
Goal Navigation [15.623723522165731]
本稿では,POLo(Probable Object Location)スコアを中心とした新しいフレームワークを提案する。
計算集約的なPOLoスコアを近似するためにトレーニングされたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。
OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,幅広いベースライン手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-11-14T08:45:32Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - ReorientDiff: Diffusion Model based Reorientation for Object
Manipulation [18.95498618397922]
望ましい設定でオブジェクトを操作できることは、ロボットが様々な実践的な応用を完了するための基本的な要件である。
本稿では,拡散モデルに基づく手法を用いたリオリエンテーション計画手法であるReorientDiffを提案する。
提案手法は,YCBオブジェクトの集合と吸引グリップを用いて評価し,95.2%のシミュレーション成功率を示す。
論文 参考訳(メタデータ) (2023-02-28T00:08:38Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Multi-Resolution POMDP Planning for Multi-Object Search in 3D [26.683481431467783]
フラストタル形状の視野を持つ3次元領域における多対象探索のためのPOMDPの定式化について述べる。
我々は,対象物体の異なる解像度レベルでの不確かさを捉えるために,新しいオクツリーに基づく信念表現を設計する。
移動ロボットによる2つの10m$2×2$m領域の異なる高さに配置された物体を、ベースを移動させ、胴体を作動させることにより、その位置を推定する手法を実証する。
論文 参考訳(メタデータ) (2020-05-06T14:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。