論文の概要: TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors
- arxiv url: http://arxiv.org/abs/2207.10761v1
- Date: Thu, 21 Jul 2022 21:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:57:12.221911
- Title: TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors
- Title(参考訳): TIDEE: Visuo-Semantic Commonsense を用いた新しい部屋のタイピング
- Authors: Gabriel Sarch, Zhaoyuan Fang, Adam W. Harley, Paul Schydlo, Michael J.
Tarr, Saurabh Gupta, and Katerina Fragkiadaki
- Abstract要約: TIDEEは、学習されたコモンセンスオブジェクト配置と部屋配置に基づいて、混乱したシーンをタイディーアップする。
TIDEEは、ホーム環境を探索し、自然の場所から外れたオブジェクトを検出し、それらに対して妥当なオブジェクトコンテキストを推測し、現在のシーンでそのようなコンテキストをローカライズし、オブジェクトを再配置する。
我々は,AI2THORシミュレーション環境における非編成シーンのタイピングについてTIDEEを検証した。
- 参考スコア(独自算出の注目度): 29.255373211228548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TIDEE, an embodied agent that tidies up a disordered scene based
on learned commonsense object placement and room arrangement priors. TIDEE
explores a home environment, detects objects that are out of their natural
place, infers plausible object contexts for them, localizes such contexts in
the current scene, and repositions the objects. Commonsense priors are encoded
in three modules: i) visuo-semantic detectors that detect out-of-place objects,
ii) an associative neural graph memory of objects and spatial relations that
proposes plausible semantic receptacles and surfaces for object repositions,
and iii) a visual search network that guides the agent's exploration for
efficiently localizing the receptacle-of-interest in the current scene to
reposition the object. We test TIDEE on tidying up disorganized scenes in the
AI2THOR simulation environment. TIDEE carries out the task directly from pixel
and raw depth input without ever having observed the same room beforehand,
relying only on priors learned from a separate set of training houses. Human
evaluations on the resulting room reorganizations show TIDEE outperforms
ablative versions of the model that do not use one or more of the commonsense
priors. On a related room rearrangement benchmark that allows the agent to view
the goal state prior to rearrangement, a simplified version of our model
significantly outperforms a top-performing method by a large margin. Code and
data are available at the project website: https://tidee-agent.github.io/.
- Abstract(参考訳): 我々は,学習されたコモンセンスオブジェクト配置と部屋配置に基づいて,乱れたシーンを調合するエンボディエージェントであるTIDEEを紹介する。
tideeはホーム環境を探索し、自然の場所から外れたオブジェクトを検出し、そのオブジェクトのコンテキストを推測し、現在のシーンでそのようなコンテキストをローカライズし、オブジェクトを再配置する。
commonsenseのプリエントは3つのモジュールにエンコードされる。
一 場所外物体を検知するヴィスー・セマンティクス検出器
二 オブジェクトの関連性のある神経グラフ記憶及びオブジェクトの配置のための可算なセマンティックレセプタクル及び表面を提案する空間関係
三 エージェントの探索を指導し、現在のシーンにおける関心の受容を効率的に局所化し、対象を再配置するためのビジュアル検索ネットワーク。
我々は,AI2THORシミュレーション環境における非編成シーンのタイピングについてTIDEEを検証した。
tideeは、同じ部屋を事前に観察することなく、pixelやrawの奥行き入力から直接タスクを実行し、別のトレーニングハウスから学んだ事前情報のみに依存する。
結果として得られた部屋の再編成に関する人間による評価は、TIDEEがコモンセンスの1つ以上の事前使用しないモデルのアブレーションバージョンより優れていることを示している。
エージェントが再配置の前にゴール状態を見ることのできる関連するルーム再配置ベンチマークでは、モデルの単純化版がトップパフォーマンスメソッドを大幅に上回っています。
コードとデータはプロジェクトのwebサイト(https://tidee-agent.github.io/)で入手できる。
関連論文リスト
- A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - PatchContrast: Self-Supervised Pre-training for 3D Object Detection [14.603858163158625]
PatchContrastは、3Dオブジェクト検出のための新しい自己教師付きポイントクラウド事前学習フレームワークである。
提案手法は,3つの一般的な3次元検出データセットにおいて,既存の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-14T07:45:54Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - BORM: Bayesian Object Relation Model for Indoor Scene Recognition [3.3274747298291216]
室内のシーン表現に意味のあるオブジェクト表現を活用することを提案する。
まず,改良されたオブジェクトモデル(IOM)をベースラインとして,屋内シーンに関連するリッチなオブジェクトカテゴリを持つADE20Kデータセット上で事前学習したシーン解析アルゴリズムを導入することにより,オブジェクトの知識を充実させる。
オブジェクトの共起とペアのオブジェクト関係を解析するために、ベイズ的オブジェクト関係モデル(BORM)としてベイズ的視点からIOMを定式化する。
論文 参考訳(メタデータ) (2021-08-01T08:31:18Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - Object Priors for Classifying and Localizing Unseen Actions [45.91275361696107]
本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。
上述の3つのセマンティックオブジェクトプリエントを導入し、単語の埋め込みを通じてセマンティックマッチングを拡張する。
ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。
論文 参考訳(メタデータ) (2021-04-10T08:56:58Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。