論文の概要: Unsupervised Multi-object Segmentation Using Attention and Soft-argmax
- arxiv url: http://arxiv.org/abs/2205.13271v1
- Date: Thu, 26 May 2022 10:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:33:11.913609
- Title: Unsupervised Multi-object Segmentation Using Attention and Soft-argmax
- Title(参考訳): 注意とソフトargmaxを用いた教師なしマルチオブジェクトセグメンテーション
- Authors: Bruno Sauvalle and Arnaud de La Fortelle
- Abstract要約: 教師なしオブジェクト中心表現学習とマルチオブジェクト検出とセグメンテーションのための新しいアーキテクチャを提案する。
このアーキテクチャは、複雑な合成ベンチマークにおける技術状況を大幅に上回り、実世界のトラフィックビデオへの応用例を提供する。
- 参考スコア(独自算出の注目度): 0.6853165736531939
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a new architecture for unsupervised object-centric
representation learning and multi-object detection and segmentation, which uses
an attention mechanism to associate a feature vector to each object present in
the scene and to predict the coordinates of these objects using soft-argmax. A
transformer encoder handles occlusions and redundant detections, and a separate
pre-trained background model is in charge of background reconstruction. We show
that this architecture significantly outperforms the state of the art on
complex synthetic benchmarks and provide examples of applications to real-world
traffic videos.
- Abstract(参考訳): 本稿では,シーン内に存在する各オブジェクトに対して特徴ベクトルを関連付け,ソフトargmaxを用いてこれらのオブジェクトの座標を予測するための注意機構を用いた,教師なしオブジェクト中心表現学習とマルチオブジェクト検出とセグメンテーションのための新しいアーキテクチャを提案する。
トランスエンコーダは、オクルージョンと冗長検出を処理し、個別にトレーニング済みのバックグラウンドモデルがバックグラウンド再構築を担当する。
このアーキテクチャは、複雑な合成ベンチマークにおける技術状況を大幅に上回り、実世界のトラフィックビデオへの応用例を提供する。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z) - Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-15T02:08:20Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。