論文の概要: Towards causal generative scene models via competition of experts
- arxiv url: http://arxiv.org/abs/2004.12906v1
- Date: Mon, 27 Apr 2020 16:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:18:51.269787
- Title: Towards causal generative scene models via competition of experts
- Title(参考訳): 専門家の競争による因果生成シーンモデルに向けて
- Authors: Julius von K\"ugelgen, Ivan Ustyuzhaninov, Peter Gehler, Matthias
Bethge, Bernhard Sch\"olkopf
- Abstract要約: 生成モデル(エキスパート)のアンサンブルを訓練することでモジュラリティを促進させる帰納的バイアスを用いた代替手法を提案する。
トレーニング中、専門家はシーンの一部を説明するために競い合い、それによって異なるオブジェクトクラスを専門とし、オブジェクトは複数のシーンにまたがる部分として認識される。
我々のモデルは、個々のオブジェクトの制御可能なサンプリングと、物理的に妥当な方法で専門家の再結合を可能にします。
- 参考スコア(独自算出の注目度): 26.181132737834826
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning how to model complex scenes in a modular way with recombinable
components is a pre-requisite for higher-order reasoning and acting in the
physical world. However, current generative models lack the ability to capture
the inherently compositional and layered nature of visual scenes. While recent
work has made progress towards unsupervised learning of object-based scene
representations, most models still maintain a global representation space
(i.e., objects are not explicitly separated), and cannot generate scenes with
novel object arrangement and depth ordering. Here, we present an alternative
approach which uses an inductive bias encouraging modularity by training an
ensemble of generative models (experts). During training, experts compete for
explaining parts of a scene, and thus specialise on different object classes,
with objects being identified as parts that re-occur across multiple scenes.
Our model allows for controllable sampling of individual objects and
recombination of experts in physically plausible ways. In contrast to other
methods, depth layering and occlusion are handled correctly, moving this
approach closer to a causal generative scene model. Experiments on simple toy
data qualitatively demonstrate the conceptual advantages of the proposed
approach.
- Abstract(参考訳): 再結合可能なコンポーネントでモジュール化された方法で複雑なシーンをモデル化する方法を学ぶことは、物理世界での高階推論と行動の前提条件である。
しかし、現在の生成モデルには、視覚シーンの本質的に構成的かつ階層化された性質を捉える能力が欠けている。
近年の研究では、オブジェクトベースのシーン表現の教師なし学習が進んでいるが、ほとんどのモデルはグローバルな表現空間(つまり、オブジェクトは明示的に分離されていない)を維持しており、新しいオブジェクト配置と深度順序のシーンを生成することはできない。
本稿では,生成モデル(専門家)のアンサンブルを訓練することにより,モジュール性を促進する帰納的バイアスを用いる代替手法を提案する。
訓練中、専門家はシーンの一部を説明するために競い合い、異なるオブジェクトクラスを専門とし、オブジェクトは複数のシーンにまたがる部分として識別される。
我々のモデルは、個々のオブジェクトの制御可能なサンプリングと、物理的に妥当な方法で専門家の再結合を可能にします。
他の手法とは対照的に、深度階層化と閉塞は正しく処理され、このアプローチは因果生成シーンモデルに近づく。
単純な玩具データを用いた実験は,提案手法の概念的利点を定性的に示している。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。
我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。
これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文 参考訳(メタデータ) (2021-11-24T16:10:46Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Hierarchical Relational Inference [80.00374471991246]
本稿では,物体を局所的に独立に振る舞うが,よりグローバルに一括して振る舞う部分の階層としてモデル化する物理推論手法を提案する。
従来の手法とは異なり,本手法は生画像から直接教師なしの方法で学習する。
複数のレベルの抽象化を明確に区別し、合成ビデオと実世界のビデオのモデリングにおいて、強力なベースラインを超えて改善する。
論文 参考訳(メタデータ) (2020-10-07T20:19:10Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z) - Object-Centric Image Generation with Factored Depths, Locations, and
Appearances [30.541425619507184]
本稿では,画像の生成モデルについて,それらが示すオブジェクトの集合に対して明確な理由付けを行う。
私たちのモデルは、オブジェクトを互いに、そして背景から分離する構造化潜在表現を学びます。
オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-01T18:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。