論文の概要: Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots
- arxiv url: http://arxiv.org/abs/2304.01430v2
- Date: Thu, 22 Jun 2023 23:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:43:58.412431
- Title: Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots
- Title(参考訳): 分割注意:文脈分離スロットによる教師なし多目的発見
- Authors: Dong Lao, Zhengyang Hu, Francesco Locatello, Yanchao Yang, Stefano
Soatto
- Abstract要約: 本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
- 参考スコア(独自算出の注目度): 78.23772771485635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a method to segment the visual field into independently moving
regions, trained with no ground truth or supervision. It consists of an
adversarial conditional encoder-decoder architecture based on Slot Attention,
modified to use the image as context to decode optical flow without attempting
to reconstruct the image itself. In the resulting multi-modal representation,
one modality (flow) feeds the encoder to produce separate latent codes (slots),
whereas the other modality (image) conditions the decoder to generate the first
(flow) from the slots. This design frees the representation from having to
encode complex nuisance variability in the image due to, for instance,
illumination and reflectance properties of the scene. Since customary
autoencoding based on minimizing the reconstruction error does not preclude the
entire flow from being encoded into a single slot, we modify the loss to an
adversarial criterion based on Contextual Information Separation. The resulting
min-max optimization fosters the separation of objects and their assignment to
different attention slots, leading to Divided Attention, or DivA. DivA
outperforms recent unsupervised multi-object motion segmentation methods while
tripling run-time speed up to 104FPS and reducing the performance gap from
supervised methods to 12% or less. DivA can handle different numbers of objects
and different image sizes at training and test time, is invariant to
permutation of object labels, and does not require explicit regularization.
- Abstract(参考訳): 本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
スロットアテンションに基づく逆条件エンコーダ-デコーダアーキテクチャで構成され、イメージ自体を再構築せずに光学フローをデコードするためのコンテキストとしてイメージを使用するように変更された。
結果として得られるマルチモーダル表現では、1つのモダリティ(フロー)がエンコーダに別々の潜在コード(スロット)を生成させ、もう1つのモダリティ(イメージ)はデコーダにスロットから最初の(フロー)を生成するように条件づける。
この設計により、シーンの照明特性や反射特性などにより、画像中の複雑なニュアンス変動を符号化する必要がなくなる。
再構成誤差の最小化に基づく慣習的自動符号化は,フロー全体が単一スロットに符号化されるのを妨げないため,コンテキスト情報分離に基づく対向的基準の変更を行う。
その結果、min-max最適化により、オブジェクトの分離と異なるアテンションスロットへの割り当てが促進され、Divided Attention(DivA)につながる。
DivAは、最新の教師なしマルチオブジェクト動作セグメンテーション手法よりも優れており、実行時の速度は104FPSまで向上し、教師付き手法から12%以下のパフォーマンスギャップを減らしている。
DivAは、トレーニングやテスト時に異なるオブジェクトの数と異なるイメージサイズを処理でき、オブジェクトラベルの置換に不変であり、明示的な正規化を必要としない。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Learning Disentangled Representation Implicitly via Transformer for
Occluded Person Re-Identification [35.40162083252931]
DRL-Netは、厳格な人物画像アライメントや追加の監督を必要とすることなく、隠蔽されたre-IDを処理する表現学習ネットワークである。
定義されていないセマンティックコンポーネントの表現を自動的に切り離すことで、画像の類似度を測定する。
DRL-Netは、一貫して優れたre-ID性能を達成し、Occluded-DukeMTMCに対して大きなマージンで最先端の性能を上回る。
論文 参考訳(メタデータ) (2021-07-06T04:24:10Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。