論文の概要: Exploring the Role of the Bottleneck in Slot-Based Models Through
Covariance Regularization
- arxiv url: http://arxiv.org/abs/2306.02577v1
- Date: Mon, 5 Jun 2023 04:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 16:58:30.062286
- Title: Exploring the Role of the Bottleneck in Slot-Based Models Through
Covariance Regularization
- Title(参考訳): 共分散規則化によるスロットモデルにおけるボトルネックの役割の探索
- Authors: Andrew Stange, Robert Lo, Abishek Sridhar, Kousik Rajesh
- Abstract要約: 本プロジェクトでは,実世界のデータセットで特徴再構成の対象と競合する画像再構成対象のスロットベースモデルを試作する。
本稿では、スロットベースモデルのボトルネックを縮小するロスベースアプローチを提案し、大容量エンコーダネットワークを、縮退したストライプ形状のマスクを発生させることなく、スロットアテンションで使用できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this project we attempt to make slot-based models with an image
reconstruction objective competitive with those that use a feature
reconstruction objective on real world datasets. We propose a loss-based
approach to constricting the bottleneck of slot-based models, allowing
larger-capacity encoder networks to be used with Slot Attention without
producing degenerate stripe-shaped masks. We find that our proposed method
offers an improvement over the baseline Slot Attention model but does not reach
the performance of \dinosaur on the COCO2017 dataset. Throughout this project,
we confirm the superiority of a feature reconstruction objective over an image
reconstruction objective and explore the role of the architectural bottleneck
in slot-based models.
- Abstract(参考訳): 本研究では,実世界のデータセットにおける特徴再現目的と競合するような,画像再構成目的のスロットベースモデルの構築を試みる。
本稿では、スロットベースモデルのボトルネックを縮小するロスベースアプローチを提案し、大容量エンコーダネットワークを、縮退したストライプ形状のマスクを発生させることなく、スロットアテンションで使用できるようにする。
提案手法はベースラインSlot Attentionモデルよりも改善されているが,COCO2017データセット上での\dinosaurのパフォーマンスには達していない。
本プロジェクトを通して,画像再構成目標よりも特徴復元目標が優れていることを確認し,スロットベースモデルにおけるアーキテクチャボトルネックの役割について検討する。
関連論文リスト
- ProvNeRF: Modeling per Point Provenance in NeRFs as a Stochastic Field [52.09661042881063]
テキストフィールドとしてNeRFのbfprovenance(可視な位置)をモデル化する手法を提案する。
我々は、NeRF最適化におけるポイントごとの精度のモデリングにより、新しいビュー合成と不確実性推定の改善につながる情報により、モデルが強化されることを示す。
論文 参考訳(メタデータ) (2024-01-16T06:19:18Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Iterative collaborative routing among equivariant capsules for
transformation-robust capsule networks [6.445605125467574]
本稿では,同変で構成性に配慮したカプセルネットワークモデルを提案する。
構成性に対する認識は、提案した新しい反復的グラフベースのルーティングアルゴリズムを用いて得られる。
FashionMNIST, CIFAR-10, CIFAR-100の変換画像分類実験により, ICRを用いた我々のモデルは, 畳み込みベースラインとカプセルベースラインを上回り, 最先端性能を実現していることが示された。
論文 参考訳(メタデータ) (2022-10-20T08:47:18Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z) - Toward a Controllable Disentanglement Network [22.968760397814993]
本稿では, 画像編集における歪みの程度を制御し, 歪み強度と復元品質のバランスをとることにより, 歪み画像表現を学習する2つの重要な問題に対処する。
ソフトターゲット表現の実際の値空間を探索することにより、指定された特性を持つ新規な画像を合成することができる。
論文 参考訳(メタデータ) (2020-01-22T16:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。