論文の概要: Two-Stream Networks for Object Segmentation in Videos
- arxiv url: http://arxiv.org/abs/2208.04026v1
- Date: Mon, 8 Aug 2022 10:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:32:06.377390
- Title: Two-Stream Networks for Object Segmentation in Videos
- Title(参考訳): ビデオにおけるオブジェクトセグメンテーションのための2ストリームネットワーク
- Authors: Hannan Lu, Zhi Tian, Lirong Yang, Haibing Ren, Wangmeng Zuo
- Abstract要約: 我々は,2ストリームネットワーク(TSN)を用いて,その画素レベルのメモリ検索に基づいて表示された画素を分割する。
インスタンスの全体的理解は、ターゲットインスタンスの特徴に基づいて動的セグメンテーションヘッドで得られる。
コンパクトなインスタンスストリームは、適応的なルーティングマップで2つのストリームを融合させながら、目に見えないピクセルのセグメンテーション精度を効果的に向上させる。
- 参考スコア(独自算出の注目度): 83.1383102535413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing matching-based approaches perform video object segmentation (VOS)
via retrieving support features from a pixel-level memory, while some pixels
may suffer from lack of correspondence in the memory (i.e., unseen), which
inevitably limits their segmentation performance. In this paper, we present a
Two-Stream Network (TSN). Our TSN includes (i) a pixel stream with a
conventional pixel-level memory, to segment the seen pixels based on their
pixellevel memory retrieval. (ii) an instance stream for the unseen pixels,
where a holistic understanding of the instance is obtained with dynamic
segmentation heads conditioned on the features of the target instance. (iii) a
pixel division module generating a routing map, with which output embeddings of
the two streams are fused together. The compact instance stream effectively
improves the segmentation accuracy of the unseen pixels, while fusing two
streams with the adaptive routing map leads to an overall performance boost.
Through extensive experiments, we demonstrate the effectiveness of our proposed
TSN, and we also report state-of-the-art performance of 86.1% on YouTube-VOS
2018 and 87.5% on the DAVIS-2017 validation split.
- Abstract(参考訳): 既存のマッチングベースのアプローチは、画素レベルのメモリからサポート機能を取得することでビデオオブジェクトセグメンテーション(VOS)を実行するが、一部のピクセルはメモリ内の対応が不足しているため、必然的にセグメンテーション性能が制限される可能性がある。
本稿では,TSN(Two-Stream Network)を提案する。
TSNには
(i)従来のピクセルレベルメモリを有する画素ストリームは、そのピクセルレベルメモリ検索に基づいて、見た画素を分割する。
(i) 対象のインスタンスの特徴を条件とした動的セグメンテーションヘッドを用いて、そのインスタンスの全体的理解が得られる、目に見えないピクセルのインスタンスストリーム。
(iii)2つのストリームの埋め込み出力を融合したルーティングマップを生成する画素分割モジュール。
コンパクトなインスタンスストリームは、適応的なルーティングマップで2つのストリームを融合させながら、目に見えないピクセルのセグメンテーション精度を効果的に向上させる。
広範な実験を通じて提案したTSNの有効性を実証し、YouTube-VOS 2018では86.1%、DAVIS-2017では87.5%のパフォーマンスを報告した。
関連論文リスト
- FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - CE-FPN: Enhancing Channel Information for Object Detection [12.954675966833372]
特徴ピラミッドネットワーク(FPN)は,オブジェクト検出におけるマルチスケール特徴の抽出に有効なフレームワークである。
3つのシンプルで効果的なモジュールを備えた新しいチャネル強化ネットワーク(CE-FPN)を提示し、これらの問題を軽減します。
実験の結果, CE-FPNはMS COCOベンチマークの最先端FPN検出器と比較して, 競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-03-19T05:51:53Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z) - Learning Category- and Instance-Aware Pixel Embedding for Fast Panoptic
Segmentation [47.26296379603003]
パノプティックセグメンテーション(英: Panoptic segmentation、PS)は、複雑なシーン理解タスクである。
PSの結果は、検出されたインスタンスやモノのクラスに各ピクセルを割り当てることによって、単純に導き出される。
提案手法は,高速な推論速度を示すだけでなく,二段法に匹敵する性能を実現する最初の一段法でもある。
論文 参考訳(メタデータ) (2020-09-28T14:07:50Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。