論文の概要: Simple Unsupervised Object-Centric Learning for Complex and Naturalistic
Videos
- arxiv url: http://arxiv.org/abs/2205.14065v1
- Date: Fri, 27 May 2022 15:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 13:31:46.955312
- Title: Simple Unsupervised Object-Centric Learning for Complex and Naturalistic
Videos
- Title(参考訳): 複雑・自然的ビデオのための簡易な教師なしオブジェクト指向学習
- Authors: Gautam Singh, Yi-Fu Wu, Sungjin Ahn
- Abstract要約: 教師なしのオブジェクト中心学習は、シーンのモジュラー、構成、因果構造をオブジェクト表現の集合として表現することを目的としている。
ビデオにおけるオブジェクト中心学習の教師なしモデルであるSTEVEを提案する。
本実験は, 従来の最先端技術と比較して, 様々な複雑で自然主義的なビデオに対して有意な改善が認められた。
- 参考スコア(独自算出の注目度): 25.157559544382323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised object-centric learning aims to represent the modular,
compositional, and causal structure of a scene as a set of object
representations and thereby promises to resolve many critical limitations of
traditional single-vector representations such as poor systematic
generalization. Although there have been many remarkable advances in recent
years, one of the most critical problems in this direction has been that
previous methods work only with simple and synthetic scenes but not with
complex and naturalistic images or videos. In this paper, we propose STEVE, an
unsupervised model for object-centric learning in videos. Our proposed model
makes a significant advancement by demonstrating its effectiveness on various
complex and naturalistic videos unprecedented in this line of research.
Interestingly, this is achieved by neither adding complexity to the model
architecture nor introducing a new objective or weak supervision. Rather, it is
achieved by a surprisingly simple architecture that uses a transformer-based
image decoder conditioned on slots and the learning objective is simply to
reconstruct the observation. Our experiment results on various complex and
naturalistic videos show significant improvements compared to the previous
state-of-the-art.
- Abstract(参考訳): 教師なしのオブジェクト中心学習は、シーンのモジュール構造、構成構造、因果構造をオブジェクト表現の集合として表現することを目的としており、結果として、体系的一般化の貧弱など、従来の単一ベクトル表現の多くの重要な制限を解決することを約束する。
近年、多くの顕著な進歩があったが、この方向の最も重要な問題は、従来の手法が単純で合成的なシーンでしか機能せず、複雑で自然主義的なイメージやビデオで機能しないことである。
本稿では,ビデオにおける対象中心学習の教師なしモデルであるSTEVEを提案する。
提案手法は,本研究で前例のない複雑で自然主義的な映像に対して,その効果を示すことによって,大きな進歩を遂げている。
興味深いことに、これはモデルアーキテクチャに複雑さを加えることも、新しい目的や弱い監督を導入することもない。
むしろ、スロットに条件付きトランスフォーマーベースのイメージデコーダを使用する驚くほど単純なアーキテクチャで実現されており、学習目的は単に観察を再構築することである。
本実験は, 従来の最先端技術と比較して, 様々な複雑で自然主義的なビデオに対して有意な改善が認められた。
関連論文リスト
- EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - REACTO: Reconstructing Articulated Objects from a Single Video [64.89760223391573]
関節の柔軟な変形を維持しつつ各部の剛性を向上する新しい変形モデルを提案する。
提案手法は, 従来よりも高忠実度な3D再構成を実現する上で, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-17T08:01:55Z) - Object-Centric Learning for Real-World Videos by Predicting Temporal
Feature Similarities [30.564704737585558]
本稿では,時間的特徴類似性損失の形で事前学習した特徴を利用する新しい方法を提案する。
この損失は、画像パッチ間の意味的および時間的相関を符号化し、オブジェクト発見のための動きバイアスを導入する自然な方法である。
この損失は、挑戦的な合成MOViデータセット上での最先端のパフォーマンスにつながることを実証する。
論文 参考訳(メタデータ) (2023-06-07T23:18:14Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Hierarchical Relational Inference [80.00374471991246]
本稿では,物体を局所的に独立に振る舞うが,よりグローバルに一括して振る舞う部分の階層としてモデル化する物理推論手法を提案する。
従来の手法とは異なり,本手法は生画像から直接教師なしの方法で学習する。
複数のレベルの抽象化を明確に区別し、合成ビデオと実世界のビデオのモデリングにおいて、強力なベースラインを超えて改善する。
論文 参考訳(メタデータ) (2020-10-07T20:19:10Z) - Towards causal generative scene models via competition of experts [26.181132737834826]
生成モデル(エキスパート)のアンサンブルを訓練することでモジュラリティを促進させる帰納的バイアスを用いた代替手法を提案する。
トレーニング中、専門家はシーンの一部を説明するために競い合い、それによって異なるオブジェクトクラスを専門とし、オブジェクトは複数のシーンにまたがる部分として認識される。
我々のモデルは、個々のオブジェクトの制御可能なサンプリングと、物理的に妥当な方法で専門家の再結合を可能にします。
論文 参考訳(メタデータ) (2020-04-27T16:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。