論文の概要: Visual Room Rearrangement
- arxiv url: http://arxiv.org/abs/2103.16544v1
- Date: Tue, 30 Mar 2021 17:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:38:13.243861
- Title: Visual Room Rearrangement
- Title(参考訳): 視覚室のリレンジメント
- Authors: Luca Weihs, Matt Deitke, Aniruddha Kembhavi, Roozbeh Mottaghi
- Abstract要約: 再配置タスクのための新しいデータセットとベースラインモデルを提案する。
RoomRという名前のデータセットには、120のシーンで72の異なるオブジェクトタイプを含む6000の異なる並べ替え設定が含まれています。
我々の実験は、この挑戦的な対話的タスクの解決は、現時点の技術が具現化しているタスクの能力を超越していることを示している。
- 参考スコア(独自算出の注目度): 28.646502141646074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a significant recent progress in the field of Embodied AI with
researchers developing models and algorithms enabling embodied agents to
navigate and interact within completely unseen environments. In this paper, we
propose a new dataset and baseline models for the task of Rearrangement. We
particularly focus on the task of Room Rearrangement: an agent begins by
exploring a room and recording objects' initial configurations. We then remove
the agent and change the poses and states (e.g., open/closed) of some objects
in the room. The agent must restore the initial configurations of all objects
in the room. Our dataset, named RoomR, includes 6,000 distinct rearrangement
settings involving 72 different object types in 120 scenes. Our experiments
show that solving this challenging interactive task that involves navigation
and object interaction is beyond the capabilities of the current
state-of-the-art techniques for embodied tasks and we are still very far from
achieving perfect performance on these types of tasks. The code and the dataset
are available at: https://ai2thor.allenai.org/rearrangement
- Abstract(参考訳): エンボディードAIの分野では、エンボディードエージェントが完全に見えない環境でナビゲートし、相互作用することを可能にするモデルとアルゴリズムを開発する研究者による大きな進歩があった。
本稿では,再配置作業のための新しいデータセットとベースラインモデルを提案する。
エージェントは部屋を探索し、オブジェクトの初期構成を記録することから始まります。
次に、エージェントを削除し、室内のいくつかのオブジェクトのポーズと状態(例えば、開閉)を変更する。
エージェントは部屋のすべてのオブジェクトの初期設定を復元しなければならない。
RoomRという名前のデータセットには、120のシーンで72の異なるオブジェクトタイプを含む6000の異なる並べ替え設定が含まれています。
私たちの実験では、ナビゲーションとオブジェクトインタラクションを伴うこの困難なインタラクティブなタスクの解決は、具体化されたタスクの現在の最先端のテクニックの能力を超えていることを示している。
コードとデータセットは以下の通りである。
関連論文リスト
- Leverage Task Context for Object Affordance Ranking [57.59106517732223]
25の共通タスク、50k以上の画像、661k以上のオブジェクトからなる、最初の大規模タスク指向のアベイランスランキングデータセットを構築しました。
その結果,タスクコンテキストに基づくアベイランス学習のパラダイムの実現可能性と,サリエンシランキングやマルチモーダルオブジェクト検出の分野における最先端モデルよりも,我々のモデルの方が優れていることが示された。
論文 参考訳(メタデータ) (2024-11-25T04:22:33Z) - Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments [44.6372390798904]
本稿では,特定の個人オブジェクトの位置と到達を具体化するタスクデノマイトされたパーソナライズされたパーソナライズドインスタンスベースのナビゲーション(PIN)を提案する。
各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
論文 参考訳(メタデータ) (2024-10-23T18:01:09Z) - DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments [28.23284296418962]
Zero-Shot Object Navigation (ZSON)は、エージェントが不慣れな環境で見えないオブジェクトを自律的に見つけ、アプローチすることを要求する。
ZSONアルゴリズムを開発するための既存のデータセットには、動的な障害、オブジェクトの多様性、シーンテキストが考慮されていない。
動的環境(DOZE)におけるオープンボキャブラリゼロショットオブジェクトナビゲーションのためのデータセットを提案する。
DOZEは18k以上のタスクを持つ10の高忠実な3Dシーンで構成されており、複雑な動的現実世界のシナリオを模倣することを目的としている。
論文 参考訳(メタデータ) (2024-02-29T10:03:57Z) - TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors [29.255373211228548]
TIDEEは、学習されたコモンセンスオブジェクト配置と部屋配置に基づいて、混乱したシーンをタイディーアップする。
TIDEEは、ホーム環境を探索し、自然の場所から外れたオブジェクトを検出し、それらに対して妥当なオブジェクトコンテキストを推測し、現在のシーンでそのようなコンテキストをローカライズし、オブジェクトを再配置する。
我々は,AI2THORシミュレーション環境における非編成シーンのタイピングについてTIDEEを検証した。
論文 参考訳(メタデータ) (2022-07-21T21:19:18Z) - Finding Fallen Objects Via Asynchronous Audio-Visual Integration [89.75296559813437]
本稿では,3次元仮想環境におけるマルチモーダルオブジェクトのローカライゼーションについて検討する。
カメラとマイクを装備したロボットエージェントは、音声と視覚信号を基礎となる物理学の知識と組み合わせることで、どの物体が落下したか(そしてどこにあるか)を判断しなければならない。
このデータセットは、物理ベースの衝撃音と、フォトリアリスティックな設定でオブジェクト間の複雑な物理的相互作用をシミュレートする3DWorldプラットフォームを使用している。
論文 参考訳(メタデータ) (2022-07-07T17:59:59Z) - A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic
Search [71.14527779661181]
視覚的な部屋の配置は、視覚的な入力のみに基づいてオブジェクトを並べ替えるエージェントの能力を評価する。
本稿では,(1)どのオブジェクトを並べ替える必要があるかを探索し,マッピングし,(2)タスクが完了するまで各オブジェクトを並べ替える,という方法を提案する。
論文 参考訳(メタデータ) (2022-06-21T02:33:57Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。