論文の概要: Learning Object Permanence from Video
- arxiv url: http://arxiv.org/abs/2003.10469v4
- Date: Thu, 16 Jul 2020 09:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:24:54.627454
- Title: Learning Object Permanence from Video
- Title(参考訳): ビデオから物体の永続性を学ぶ
- Authors: Aviv Shamsian, Ofri Kleinfeld, Amir Globerson, Gal Chechik
- Abstract要約: 本稿では,データからオブジェクトパーマンスを学習するためのセットアップを紹介する。
本稿では,この学習問題を,対象が可視である4つの構成要素,(2)隠蔽,(3)他の対象が包含,(4)包含対象が担持する4つの要素に分解すべき理由を説明する。
そして、これらの4つのシナリオの下でオブジェクトの位置を予測することを学習する統合されたディープアーキテクチャを提示します。
- 参考スコア(独自算出の注目度): 46.34427538905761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object Permanence allows people to reason about the location of non-visible
objects, by understanding that they continue to exist even when not perceived
directly. Object Permanence is critical for building a model of the world,
since objects in natural visual scenes dynamically occlude and contain
each-other. Intensive studies in developmental psychology suggest that object
permanence is a challenging task that is learned through extensive experience.
Here we introduce the setup of learning Object Permanence from data. We explain
why this learning problem should be dissected into four components, where
objects are (1) visible, (2) occluded, (3) contained by another object and (4)
carried by a containing object. The fourth subtask, where a target object is
carried by a containing object, is particularly challenging because it requires
a system to reason about a moving location of an invisible object. We then
present a unified deep architecture that learns to predict object location
under these four scenarios. We evaluate the architecture and system on a new
dataset based on CATER, and find that it outperforms previous localization
methods and various baselines.
- Abstract(参考訳): オブジェクト永続性(object permanence)は、直接認識されていなくても存在し続けることを理解して、見えないオブジェクトの位置を判断可能にする。
オブジェクト永続性は、自然の視覚的なシーンのオブジェクトが動的に閉塞し、お互いを含むため、世界のモデルを構築するために重要である。
発達心理学における集中的な研究は、物体の永続性は広範な経験を通して学習される困難な課題であることを示している。
ここでは、データからObject Permanenceを学習するセットアップを紹介します。
この学習問題を,(1)可視物,(2)隠蔽物,(3)他の対象物,(4)包含物という4つの構成要素に分解すべき理由を説明する。
対象物が対象物によって運ばれる第4のサブタスクは、見えない物体の移動位置をシステムに推論する必要があるため、特に困難である。
次に、これら4つのシナリオでオブジェクトの位置を予測することを学ぶ、統一されたディープアーキテクチャを示す。
アーキテクチャとシステムをCATERに基づく新しいデータセット上で評価し、従来のローカライゼーション手法や様々なベースラインよりも優れていることを示す。
関連論文リスト
- AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - The Background Also Matters: Background-Aware Motion-Guided Objects
Discovery [2.6442319761949875]
本研究では,背景認識型動き誘導物体探索法を提案する。
我々は光学的流れから抽出した移動物体のマスクを活用し、学習機構を設計し、それらを真の前景に拡張する。
これにより、オブジェクト発見タスクとオブジェクト/非オブジェクト分離の合同学習が可能になる。
論文 参考訳(メタデータ) (2023-11-05T12:35:47Z) - Finding Fallen Objects Via Asynchronous Audio-Visual Integration [89.75296559813437]
本稿では,3次元仮想環境におけるマルチモーダルオブジェクトのローカライゼーションについて検討する。
カメラとマイクを装備したロボットエージェントは、音声と視覚信号を基礎となる物理学の知識と組み合わせることで、どの物体が落下したか(そしてどこにあるか)を判断しなければならない。
このデータセットは、物理ベースの衝撃音と、フォトリアリスティックな設定でオブジェクト間の複雑な物理的相互作用をシミュレートする3DWorldプラットフォームを使用している。
論文 参考訳(メタデータ) (2022-07-07T17:59:59Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - SafePicking: Learning Safe Object Extraction via Object-Level Mapping [19.502587411252946]
本稿では,オブジェクトレベルのマッピングと学習に基づくモーションプランニングを統合したSafePickingを提案する。
計画は、予測されたポーズの観測を受信する深いQネットワークと、動き軌跡を出力する深さに基づく高さマップを学習することによって行われる。
この結果から,ポーズの観察と深度感の融合により,モデルの性能とロバスト性が向上することが示唆された。
論文 参考訳(メタデータ) (2022-02-11T18:55:10Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Few-shot Object Grounding and Mapping for Natural Language Robot
Instruction Following [15.896892723068932]
本稿では,ロボットのポリシーを学習して自然言語の指示に従うという課題について考察する。
本稿では,拡張現実データから学習した数発の言語条件オブジェクトグラウンドティング手法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
論文 参考訳(メタデータ) (2020-11-14T20:35:20Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。