論文の概要: Towards Improving the Generation Quality of Autoregressive Slot VAEs
- arxiv url: http://arxiv.org/abs/2206.01370v3
- Date: Tue, 28 Nov 2023 01:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:54:26.985106
- Title: Towards Improving the Generation Quality of Autoregressive Slot VAEs
- Title(参考訳): 自己回帰型スロットVAEの生成品質向上に向けて
- Authors: Patrick Emami, Pan He, Sanjay Ranka, Anand Rangarajan
- Abstract要約: オブジェクト相関学習を強化する2つの改善を提案する。
まず、スロット間の高次相関をキャプチャするグローバルなシーンレベルの変数にスロットを条件付けする。
第2に、シーンオブジェクトの自動回帰生成に使用する一貫した順序を学習することを提案することにより、画像中のオブジェクトに対する標準順序の根本的な欠如に対処する。
- 参考スコア(独自算出の注目度): 16.079315268039934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unconditional scene inference and generation are challenging to learn jointly
with a single compositional model. Despite encouraging progress on models that
extract object-centric representations (''slots'') from images, unconditional
generation of scenes from slots has received less attention. This is primarily
because learning the multi-object relations necessary to imagine coherent
scenes is difficult. We hypothesize that most existing slot-based models have a
limited ability to learn object correlations. We propose two improvements that
strengthen object correlation learning. The first is to condition the slots on
a global, scene-level variable that captures higher-order correlations between
slots. Second, we address the fundamental lack of a canonical order for objects
in images by proposing to learn a consistent order to use for the
autoregressive generation of scene objects. Specifically, we train an
autoregressive slot prior to sequentially generate scene objects following a
learned order. Ordered slot inference entails first estimating a randomly
ordered set of slots using existing approaches for extracting slots from
images, then aligning those slots to ordered slots generated autoregressively
with the slot prior. Our experiments across three multi-object environments
demonstrate clear gains in unconditional scene generation quality. Detailed
ablation studies are also provided that validate the two proposed improvements.
- Abstract(参考訳): 無条件シーン推論と生成は、単一の構成モデルと共同で学ぶことが困難である。
画像からオブジェクト中心表現('slots'')を抽出するモデルの進歩を奨励する一方で、スロットからの無条件シーン生成は注目されていない。
これは主に、コヒーレントなシーンを想像するために必要な多目的関係の学習が難しいためである。
既存のスロットベースモデルの多くは、オブジェクト相関を学習する能力に制限があるという仮説を立てる。
オブジェクト相関学習を強化する2つの改善を提案する。
ひとつは、スロット間の高次相関をキャプチャするグローバルなシーンレベル変数のスロットを条件付けることだ。
第2に、シーンオブジェクトの自動回帰生成に使用する一貫した順序を学習することを提案することにより、画像中のオブジェクトに対する標準順序の根本的な欠如に対処する。
具体的には,学習順序に従ってシーンオブジェクトを逐次生成する前に,自己回帰スロットをトレーニングする。
順序付きスロット推論は、画像からスロットを抽出する既存のアプローチを使って、ランダムに順序付けされたスロットセットを推定し、そのスロットを予め自己回帰的に生成された順序付きスロットに調整する。
3つの多目的環境における実験により,無条件シーン生成の品質が明らかに向上した。
詳細なアブレーション研究も提供され、2つの改善が提案されている。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Diffusion-based Contrastive Learning for Sequential Recommendation [6.3482831836623355]
本稿では,CaDiRecという,文脈対応拡散に基づく逐次推薦のためのコントラスト学習を提案する。
CaDiRecは、コンテキスト対応拡散モデルを使用して、シーケンス内の所定の位置に対する代替アイテムを生成する。
フレームワーク全体をエンドツーエンドでトレーニングし、拡散モデルとレコメンデーションモデルの間でアイテムの埋め込みを共有します。
論文 参考訳(メタデータ) (2024-05-15T14:20:37Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Contrastive Training of Complex-Valued Autoencoders for Object Discovery [55.280789409319716]
アーキテクチャの変更と、最先端の同期モデルを大幅に改善する新しいコントラスト学習手法を導入する。
マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見できる同期ベースモデルのクラスを初めて取得する。
論文 参考訳(メタデータ) (2023-05-24T10:37:43Z) - ReVersion: Diffusion-Based Relation Inversion from Images [31.61407278439991]
ReVersion for the Relation Inversion task, which aimed to learn a specific relationship from exemplar image。
我々は、凍結した事前学習されたテキスト-画像拡散モデルから関係のプロンプトを学習する。
学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
論文 参考訳(メタデータ) (2023-03-23T17:56:10Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。