論文の概要: Learning Object Permanence from Videos via Latent Imaginations
- arxiv url: http://arxiv.org/abs/2310.10372v2
- Date: Thu, 11 Apr 2024 08:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 19:08:26.515924
- Title: Learning Object Permanence from Videos via Latent Imaginations
- Title(参考訳): 潜入画像による映像からの物体の永続性学習
- Authors: Manuel Traub, Frederic Becker, Sebastian Otte, Martin V. Butz,
- Abstract要約: スロットベースの自己回帰型深層学習システム、ループした位置と個人性追跡モデルLoci-Loopedを導入する。
Loci-Loopedは、ピクセル空間の観察によって潜時的想像力を適応的に融合させ、時間とともに符号化されるオブジェクト固有のものや場所を一貫性のある潜時的対象とすることを示す。
そこで本研究では,映像データからオブジェクトの永続性を直接学習する自己教師あり対話型学習モデルを提案する。
- 参考スコア(独自算出の注目度): 4.293591000527724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While human infants exhibit knowledge about object permanence from two months of age onwards, deep-learning approaches still largely fail to recognize objects' continued existence. We introduce a slot-based autoregressive deep learning system, the looped location and identity tracking model Loci-Looped, which learns to adaptively fuse latent imaginations with pixel-space observations into consistent latent object-specific what and where encodings over time. The novel loop empowers Loci-Looped to learn the physical concepts of object permanence, directional inertia, and object solidity through observation alone. As a result, Loci-Looped tracks objects through occlusions, anticipates their reappearance, and shows signs of surprise and internal revisions when observing implausible object behavior. Notably, Loci-Looped outperforms state-of-the-art baseline models in handling object occlusions and temporary sensory interruptions while exhibiting more compositional, interpretable internal activity patterns. Our work thus introduces the first self-supervised interpretable learning model that learns about object permanence directly from video data without supervision.
- Abstract(参考訳): ヒトの幼児は2か月前から物体の永続性に関する知識を持っているが、深層学習のアプローチは依然として物体の存在を認識できない。
スロットベースの自己回帰型深層学習システムLoci-Loopedを導入し,画素空間の観測で潜時想像を適応的に融合させ,時間とともに符号化を行う。
このループはLoci-Loopedに、観測だけで物体の永続性、指向性慣性、および物体の固体の物理的概念を学ぶ権限を与える。
結果として、Loci-Loopedはオクルージョンを通してオブジェクトを追跡し、その再出現を予測し、予期せぬ物体の振る舞いを観察する際に、驚きと内部の修正の兆候を示す。
特に、Loci-Loopedは、より構成的で解釈可能な内部活動パターンを示しながら、オブジェクトの閉塞や一時的な感覚中断を扱う、最先端のベースラインモデルより優れています。
そこで本研究では,映像データからオブジェクトの永続性を直接学習する自己教師あり対話型学習モデルを提案する。
関連論文リスト
- Seeing Objects in a Cluttered World: Computational Objectness from
Motion in Video [0.0]
物体が重なり合う物体と物理的に異なるものとして、世界の視覚的に不連続な表面を認識することは、視覚的知覚の基礎となる。
対象モデルを持たない現象学から客観性を推定するための,単純だが新しい手法を提案する。
ぼやけやカメラの震えがあっても、個々の被写体をぼやけたシーンでしっかりと認識できることを示す。
論文 参考訳(メタデータ) (2024-02-02T03:57:11Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Curiosity-driven Intuitive Physics Learning [0.0]
実世界のAIエージェントに対する好奇心駆動学習と推論のモデルを提案する。
このモデルは好奇心の喚起に基づくもので、基本的なマクロ固体物理パラメータの不連続性に関する観測から導かれる。
このモデルは、ドメインに関係なく、ゼロから学習のエミュレーションと経験による実証を支援することを目的としています。
論文 参考訳(メタデータ) (2021-05-16T12:58:05Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - Learning Object-Based State Estimators for Household Robots [11.055133590909097]
我々は高次元観測と仮説に基づいてオブジェクトベースのメモリシステムを構築する。
シミュレーション環境と実画像の両方において動的に変化するオブジェクトの記憶を維持するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-06T04:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。