論文の概要: Slot Order Matters for Compositional Scene Understanding
- arxiv url: http://arxiv.org/abs/2206.01370v1
- Date: Fri, 3 Jun 2022 02:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 02:23:24.262458
- Title: Slot Order Matters for Compositional Scene Understanding
- Title(参考訳): 構成場面理解のためのスロットオーダー事項
- Authors: Patrick Emami, Pan He, Sanjay Ranka, Anand Rangarajan
- Abstract要約: 固定順序でオブジェクトを生成する前にスロットをトレーニングするために補助的な損失を導入する。
構成環境とアブリケーションに関する実験により,我々の大域的先行性,整列スロット順,補助的損失によるモデルが,最先端のサンプル品質を実現することを示した。
- 参考スコア(独自算出の注目度): 11.69144204466843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empowering agents with a compositional understanding of their environment is
a promising next step toward solving long-horizon planning problems. On the one
hand, we have seen encouraging progress on variational inference algorithms for
obtaining sets of object-centric latent representations ("slots") from
unstructured scene observations. On the other hand, generating scenes from
slots has received less attention, in part because it is complicated by the
lack of a canonical object order. A canonical object order is useful for
learning the object correlations necessary to generate physically plausible
scenes similar to how raster scan order facilitates learning pixel correlations
for pixel-level autoregressive image generation. In this work, we address this
lack by learning a fixed object order for a hierarchical variational
autoencoder with a single level of autoregressive slots and a global scene
prior. We cast autoregressive slot inference as a set-to-sequence modeling
problem. We introduce an auxiliary loss to train the slot prior to generate
objects in a fixed order. During inference, we align a set of inferred slots to
the object order obtained from a slot prior rollout. To ensure the rolled out
objects are meaningful for the given scene, we condition the prior on an
inferred global summary of the input. Experiments on compositional environments
and ablations demonstrate that our model with global prior, inference with
aligned slot order, and auxiliary loss achieves state-of-the-art sample
quality.
- Abstract(参考訳): 環境の構成的理解によるエージェントの強化は、長期計画問題の解決に向けた有望な次のステップである。
一方で,非構造的なシーン観測からオブジェクト中心の潜在表現集合(「スロット」)を得るための変分推論アルゴリズムの進歩を奨励している。
一方で、スロットからのシーン生成は、標準的なオブジェクト順序の欠如が複雑であることから、あまり注目されていない。
正準オブジェクト順序は、ピクセルレベルの自己回帰画像生成のためのピクセル相関の学習を容易にするラスタースキャン順序に似た物理的に妥当なシーンを生成するのに必要なオブジェクト相関の学習に有用である。
本研究では,単一レベルの自己回帰スロットとグローバルなシーンを持つ階層的変分オートエンコーダの固定オブジェクト順序を学習することで,この問題に対処する。
自己回帰スロット推論をセット・トゥ・シーケンス・モデリング問題として採用した。
固定順序でオブジェクトを生成する前にスロットをトレーニングするために補助的損失を導入する。
推論中は、スロット先行ロールアウトから得られたオブジェクト順序に、一連の推論スロットをアライメントする。
ロールアウトされたオブジェクトが所定のシーンで意味のあるものであることを保証するため、インプットの推論されたグローバルサマリーに事前条件を定める。
合成環境とアブレーションの実験により,グローバルプリエントによるモデル,スロット順序の整合による推論,補助損失が最先端のサンプル品質を達成することを実証した。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Diffusion-based Contrastive Learning for Sequential Recommendation [6.3482831836623355]
本稿では,CaDiRecという,文脈対応拡散に基づく逐次推薦のためのコントラスト学習を提案する。
CaDiRecは、コンテキスト対応拡散モデルを使用して、シーケンス内の所定の位置に対する代替アイテムを生成する。
フレームワーク全体をエンドツーエンドでトレーニングし、拡散モデルとレコメンデーションモデルの間でアイテムの埋め込みを共有します。
論文 参考訳(メタデータ) (2024-05-15T14:20:37Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Contrastive Training of Complex-Valued Autoencoders for Object Discovery [55.280789409319716]
アーキテクチャの変更と、最先端の同期モデルを大幅に改善する新しいコントラスト学習手法を導入する。
マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見できる同期ベースモデルのクラスを初めて取得する。
論文 参考訳(メタデータ) (2023-05-24T10:37:43Z) - ReVersion: Diffusion-Based Relation Inversion from Images [31.61407278439991]
ReVersion for the Relation Inversion task, which aimed to learn a specific relationship from exemplar image。
我々は、凍結した事前学習されたテキスト-画像拡散モデルから関係のプロンプトを学習する。
学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
論文 参考訳(メタデータ) (2023-03-23T17:56:10Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。