論文の概要: U2-ONet: A Two-level Nested Octave U-structure with Multiscale Attention
Mechanism for Moving Instances Segmentation
- arxiv url: http://arxiv.org/abs/2007.13092v1
- Date: Sun, 26 Jul 2020 10:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 19:54:07.607808
- Title: U2-ONet: A Two-level Nested Octave U-structure with Multiscale Attention
Mechanism for Moving Instances Segmentation
- Title(参考訳): U2-ONet: 移動インスタンスセグメンテーションのためのマルチスケールアテンション機構を備えた2レベルネストオクターブU構造
- Authors: Chenjie Wang and Chengyuan Li and Bin Luo
- Abstract要約: 本論文では,U2-ONetと呼ばれるマルチスケールアテンション機構を備えた2層ネスト型Ocave U構造ネットワークを提案する。
実験結果から,本手法は複数の一般的な移動物体セグメンテーションデータセットにおいて,最先端の性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 9.428577464157918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most scenes in practical applications are dynamic scenes containing moving
objects, so segmenting accurately moving objects is crucial for many computer
vision applications. In order to efficiently segment out all moving objects in
the scene, regardless of whether the object has a predefined semantic label, we
propose a two-level nested Octave U-structure network with a multiscale
attention mechanism called U2-ONet. Each stage of U2-ONet is filled with our
newly designed Octave ReSidual U-block (ORSU) to enhance the ability to obtain
more context information at different scales while reducing spatial redundancy
of feature maps. In order to efficiently train our multi-scale deep network, we
introduce a hierarchical training supervision strategy that calculates the loss
at each level while adding a knowledge matching loss to keep the optimization
consistency. Experimental results show that our method achieves
state-of-the-art performance in several general moving objects segmentation
datasets.
- Abstract(参考訳): 現実的な応用におけるほとんどのシーンは動いた物体を含む動的シーンであるため、正確な動いた物体のセグメント化は多くのコンピュータビジョンアプリケーションにとって不可欠である。
シーン内のすべての移動物体を効率的に分割するために,オブジェクトが予め定義された意味ラベルを持つかどうかに関わらず,u2-onetと呼ばれるマルチスケールの注意機構を備えた2レベルネストオクターブ u-構造ネットワークを提案する。
U2-ONetの各ステージは、新たに設計されたOctave Residual U-block (ORSU)で満たされ、特徴マップの空間冗長性を低減しつつ、異なるスケールでより多くのコンテキスト情報を得る能力を高める。
マルチスケール深層ネットワークを効率的にトレーニングするために,最適化の整合性を維持するために知識マッチング損失を加えながら,各レベルの損失を算出する階層的なトレーニング監視戦略を導入する。
実験結果から,本手法は複数の一般的な移動物体セグメンテーションデータセットにおける最先端性能を実現する。
関連論文リスト
- N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - Towards Diverse Binary Segmentation via A Simple yet General Gated Network [71.19503376629083]
本稿では,バイナリセグメンテーションタスクに対処するシンプルな汎用ネットワーク(GateNet)を提案する。
多段ゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに選択的に送信することができる。
我々は,アトーラスの畳み込みを改善し,新規な折り畳み畳み畳み畳み畳み込みを形成する「Fold」操作を導入した。
論文 参考訳(メタデータ) (2023-03-18T11:26:36Z) - CASAPose: Class-Adaptive and Semantic-Aware Multi-Object Pose Estimation [2.861848675707602]
CASAPoseと呼ばれる新しい単一ステージアーキテクチャを提案する。
RGB画像中の複数の異なるオブジェクトのポーズ推定のための2D-3D対応を1パスで決定する。
高速でメモリ効率が高く、複数のオブジェクトに対して高い精度を実現する。
論文 参考訳(メタデータ) (2022-10-11T10:20:01Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Multi Receptive Field Network for Semantic Segmentation [8.06045579589765]
セグメンテーションのためのMRFM(Multi-Receptive Field Module)を提案する。
また、オブジェクト/スタッフの境界を識別するのに有効なエッジ認識損失を設計する。
具体的には、Cityscapesデータセットで83.0の平均IoU、Pascal VOC2012データセットで88.4の平均IoUを達成する。
論文 参考訳(メタデータ) (2020-11-17T11:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。