論文の概要: Generating Fast and Slow: Scene Decomposition via Reconstruction
- arxiv url: http://arxiv.org/abs/2203.11194v1
- Date: Mon, 21 Mar 2022 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 14:11:22.838639
- Title: Generating Fast and Slow: Scene Decomposition via Reconstruction
- Title(参考訳): 高速・低速な生成:再構成によるシーン分解
- Authors: Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, Katerina Fragkiadaki
- Abstract要約: シーンを構成体に分割する問題を考察する。
現在の教師付き視覚検出器は、しばしば配布外のシーンを構成体に分割するのに失敗する。
提案するカリキュラムは,再分割トレードオフを断ち切るのに十分であることを示すとともに,速度の遅い推論は,配布外シーンのセグメンテーションを大幅に改善する。
- 参考スコア(独自算出の注目度): 58.75430042269751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of segmenting scenes into constituent entities, i.e.
underlying objects and their parts. Current supervised visual detectors though
impressive within their training distribution, often fail to segment
out-of-distribution scenes into their constituent entities. Recent slot-centric
generative models break such dependence on supervision, by attempting to
segment scenes into entities unsupervised, by reconstructing pixels. However,
they have been restricted thus far to toy scenes as they suffer from a
reconstruction-segmentation trade-off: as the entity bottleneck gets wider,
reconstruction improves but then the segmentation collapses. We propose
GFS-Nets (Generating Fast and Slow Networks) that alleviate this issue with two
ingredients: i) curriculum training in the form of primitives, often missing
from current generative models and, ii) test-time adaptation per scene through
gradient descent on the reconstruction objective, what we call slow inference,
missing from current feed-forward detectors. We show the proposed curriculum
suffices to break the reconstruction-segmentation trade-off, and slow inference
greatly improves segmentation in out-of-distribution scenes. We evaluate
GFS-Nets in 3D and 2D scene segmentation benchmarks of PartNet, CLEVR, Room
Diverse++, and show large ( 50%) performance improvements against SOTA
supervised feed-forward detectors and unsupervised object discovery methods
- Abstract(参考訳): シーンを構成エンティティ、すなわち基礎となるオブジェクトとその部分に分割する問題を考察する。
現在の監視された視覚検出器は、訓練分布内では印象的であるが、しばしば分散シーンを構成要素に分割することができない。
最近のスロット中心生成モデルは、ピクセルの再構成によって、シーンを教師なしのエンティティに分割しようとすることで、監督への依存を壊す。
しかし、復興と分断のトレードオフに苦しむ玩具シーンに制限されており、実体のボトルネックが拡大するにつれ、再建は改善されるが、分断は崩壊する。
我々は,この問題を緩和するgfs-nets (generating fast and slow networks) を提案する。
一 プリミティブの形式によるカリキュラムの訓練で、しばしば現在の生成モデルに欠けていること。
二 現場ごとのテスト時間順応は、現在のフィードフォワード検出器から欠落した、リコンストラクション目的の勾配降下により行う。
提案するカリキュラムでは,レコンストラクション・セグメンテーションのトレードオフを解消し,スロー推論により分散場面のセグメンテーションが大幅に向上することを示す。
我々は、PartNet、CLEVR、Room Diverse++の3Dおよび2DシーンセグメンテーションベンチマークにおけるGFS-Netを評価し、SOTA制御フィードフォワード検出器と教師なしオブジェクト検出方法に対する大きな(50%)性能改善を示す。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning [16.998833621046117]
テスト期間中に直接動作するTT-DNA(Test-Time Distribution LearNing Adapter)を提案する。
具体的には,ガウス分布を推定し,少数ショット支援画像の視覚的特徴をモデル化し,支援セットから知識を抽出する。
ヒトの物体相互作用の視覚的推論に関する広範な実験結果から,提案したTT-DNAは既存の最先端手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2024-03-10T01:34:45Z) - Generalizable Industrial Visual Anomaly Detection with Self-Induction
Vision Transformer [5.116033262865781]
産業用視覚異常検出・局所化のための自己誘導型視覚変換器(SIVT)を提案する。
提案したSIVTは、まず、事前学習したCNNからプロパティ記述子として識別特徴を抽出し、抽出した特徴を自己監督的に再構成する。
その結果,AUROCでは2.8-6.3,APでは3.3-7.6の改善により,最先端検出性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-11-22T14:56:12Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。