論文の概要: Test-time Adaptation with Slot-Centric Models
- arxiv url: http://arxiv.org/abs/2203.11194v3
- Date: Tue, 27 Jun 2023 19:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 18:50:00.870191
- Title: Test-time Adaptation with Slot-Centric Models
- Title(参考訳): スロット中心モデルによるテスト時間適応
- Authors: Mihir Prabhudesai, Anirudh Goyal, Sujoy Paul, Sjoerd van Steenkiste,
Mehdi S. M. Sajjadi, Gaurav Aggarwal, Thomas Kipf, Deepak Pathak, Katerina
Fragkiadaki
- Abstract要約: Slot-TTAは、半教師付きシーン分解モデルであり、シーンごとのテスト時間は、再構成やクロスビュー合成の目的に対する勾配降下を通じて適用される。
我々は、最先端の監視フィードフォワード検出器と代替テスト時間適応法に対して、配電性能が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 63.981055778098444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current visual detectors, though impressive within their training
distribution, often fail to parse out-of-distribution scenes into their
constituent entities. Recent test-time adaptation methods use auxiliary
self-supervised losses to adapt the network parameters to each test example
independently and have shown promising results towards generalization outside
the training distribution for the task of image classification. In our work, we
find evidence that these losses are insufficient for the task of scene
decomposition, without also considering architectural inductive biases. Recent
slot-centric generative models attempt to decompose scenes into entities in a
self-supervised manner by reconstructing pixels. Drawing upon these two lines
of work, we propose Slot-TTA, a semi-supervised slot-centric scene
decomposition model that at test time is adapted per scene through gradient
descent on reconstruction or cross-view synthesis objectives. We evaluate
Slot-TTA across multiple input modalities, images or 3D point clouds, and show
substantial out-of-distribution performance improvements against
state-of-the-art supervised feed-forward detectors, and alternative test-time
adaptation methods.
- Abstract(参考訳): 現在の視覚検出器は、トレーニング分布内では印象的だが、しばしば分布外のシーンを構成体に解析することができない。
最近のテスト時間適応法は、補助的な自己教師付き損失を用いて、各テスト例にネットワークパラメータを独立に適応させ、画像分類タスクの訓練分布外の一般化に向けた有望な結果を示す。
本研究では,これらの損失が,建築上の帰納バイアスを考慮せずに,シーンの分解作業において不十分であることを示す。
最近のスロット中心生成モデルは、ピクセルを再構成することにより、シーンを自己監督的な方法でエンティティに分解しようとする。
Slot-TTAは半教師付きスロット中心のシーン分解モデルであり,再現性やクロスビュー合成の目的に対する勾配勾配によるシーンごとのテスト時間に適応する。
本研究では,複数の入力モード,イメージ,あるいは3dポイントクラウドのスロットttaを評価し,最先端の教師付きフィードフォワード検出器や代替テストタイム適応法に対する分散性能の改善を示す。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning [16.998833621046117]
テスト期間中に直接動作するTT-DNA(Test-Time Distribution LearNing Adapter)を提案する。
具体的には,ガウス分布を推定し,少数ショット支援画像の視覚的特徴をモデル化し,支援セットから知識を抽出する。
ヒトの物体相互作用の視覚的推論に関する広範な実験結果から,提案したTT-DNAは既存の最先端手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2024-03-10T01:34:45Z) - Generalizable Industrial Visual Anomaly Detection with Self-Induction
Vision Transformer [5.116033262865781]
産業用視覚異常検出・局所化のための自己誘導型視覚変換器(SIVT)を提案する。
提案したSIVTは、まず、事前学習したCNNからプロパティ記述子として識別特徴を抽出し、抽出した特徴を自己監督的に再構成する。
その結果,AUROCでは2.8-6.3,APでは3.3-7.6の改善により,最先端検出性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-11-22T14:56:12Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。