論文の概要: Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots
- arxiv url: http://arxiv.org/abs/2304.01430v3
- Date: Thu, 31 Jul 2025 14:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:07.72387
- Title: Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots
- Title(参考訳): 分割注意:文脈分離スロットによる教師なし多目的発見
- Authors: Dong Lao, Zhengyang Hu, Francesco Locatello, Yanchao Yang, Stefano Soatto,
- Abstract要約: 意味的アノテーションがない場合の視覚知覚における物体の出現について検討する。
得られたモデルは、監督を受けておらず、事前訓練された特徴を一切使用していないが、画像の領域を複数の移動領域に分割することができる。
結果として得られる動き分節法は、未知のさまざまなオブジェクトをリアルタイムで処理することができる。
- 参考スコア(独自算出の注目度): 65.302728042116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the emergence of objects in visual perception in the absence of any semantic annotation. The resulting model has received no supervision, does not use any pre-trained features, and yet it can segment the domain of an image into multiple independently moving regions. The resulting motion segmentation method can handle an unknown and varying number of objects in real-time. The core multi-modal conditional encoder-decoder architecture has one modality (optical flow) feed the encoder to produce a collection of latent codes (slots), and the other modality (color image) conditions the decoder to generate the first modality (flow) from the slots. The training criterion is designed to foster 'information separation' among the slots, while the architecture explicitly allocates activations to individual slots, leading to a method we call Divided Attention (DivA). At test time, DivA handles a different number of objects and different image resolution than seen at training, and is invariant to permutations of the slots. DivA achieves state-of-the-art performance while tripling the runtime speed of comparable methods, up to 104 FPS, and reduces the performance gap from supervised methods to 12% or less. Objects bootstrapped by DivA can then be used to prime static classifiers via contrastive learning. On fewer than 5,000 video clips, training DINO on DivA's object proposals narrows the performance gap to ImageNet-based training by up to 30.2% compared to training directly on the video frames.
- Abstract(参考訳): 意味的アノテーションがない場合の視覚知覚における物体の出現について検討する。
結果として得られたモデルは、監督を受けておらず、事前訓練された機能を使用していないが、画像の領域を複数の独立して動く領域に分割することができる。
結果として得られる動き分節法は、未知のさまざまなオブジェクトをリアルタイムで処理することができる。
コアマルチモーダル条件エンコーダ・デコーダアーキテクチャは、エンコーダに1つのモード(光学フロー)を供給し、遅延コード(スロット)のコレクションを生成し、その他のモード(カラー画像)条件をデコーダに与え、スロットから第1のモード(フロー)を生成する。
トレーニング基準はスロット間の「情報分離」を促進するために設計されており、アーキテクチャは個別のスロットにアクティベーションを明示的に割り当てているため、私たちがDivA(Divided Attention)と呼ぶ方法が導かれる。
テスト時には、DivAはトレーニングで見られる異なる数のオブジェクトと異なる画像解像度を処理し、スロットの置換に不変である。
DivAは、同等のメソッドのランタイム速度を最大104 FPSに倍増しながら最先端のパフォーマンスを実現し、教師付きメソッドのパフォーマンスギャップを12%以下に削減する。
DivAによってブートストラップされたオブジェクトは、対照的な学習を通じて素数静的分類器に使用できる。
5000本以下のビデオクリップでは、DivAのオブジェクト提案によるDINOのトレーニングは、ビデオフレーム上でのトレーニングと比較して、ImageNetベースのトレーニングのパフォーマンスギャップを最大30.2%縮小する。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Learning Disentangled Representation Implicitly via Transformer for
Occluded Person Re-Identification [35.40162083252931]
DRL-Netは、厳格な人物画像アライメントや追加の監督を必要とすることなく、隠蔽されたre-IDを処理する表現学習ネットワークである。
定義されていないセマンティックコンポーネントの表現を自動的に切り離すことで、画像の類似度を測定する。
DRL-Netは、一貫して優れたre-ID性能を達成し、Occluded-DukeMTMCに対して大きなマージンで最先端の性能を上回る。
論文 参考訳(メタデータ) (2021-07-06T04:24:10Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。