論文の概要: Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2303.10383v2
- Date: Sat, 3 Feb 2024 10:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:51:34.638504
- Title: Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation
- Title(参考訳): ゼロショットビデオオブジェクトセグメンテーションのための適応型マルチソース予測器
- Authors: Xiaoqi Zhao, Shijie Chang, Youwei Pang, Jiaxing Yang, Lihe Zhang,
Huchuan Lu
- Abstract要約: ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 68.56443382421878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static and moving objects often occur in real-life videos. Most video object
segmentation methods only focus on extracting and exploiting motion cues to
perceive moving objects. Once faced with the frames of static objects, the
moving object predictors may predict failed results caused by uncertain motion
information, such as low-quality optical flow maps. Besides, different sources
such as RGB, depth, optical flow and static saliency can provide useful
information about the objects. However, existing approaches only consider
either the RGB or RGB and optical flow. In this paper, we propose a novel
adaptive multi-source predictor for zero-shot video object segmentation (ZVOS).
In the static object predictor, the RGB source is converted to depth and static
saliency sources, simultaneously. In the moving object predictor, we propose
the multi-source fusion structure. First, the spatial importance of each source
is highlighted with the help of the interoceptive spatial attention module
(ISAM). Second, the motion-enhanced module (MEM) is designed to generate pure
foreground motion attention for improving the representation of static and
moving features in the decoder. Furthermore, we design a feature purification
module (FPM) to filter the inter-source incompatible features. By using the
ISAM, MEM and FPM, the multi-source features are effectively fused. In
addition, we put forward an adaptive predictor fusion network (APF) to evaluate
the quality of the optical flow map and fuse the predictions from the static
object predictor and the moving object predictor in order to prevent
over-reliance on the failed results caused by low-quality optical flow maps.
Experiments show that the proposed model outperforms the state-of-the-art
methods on three challenging ZVOS benchmarks. And, the static object predictor
precisely predicts a high-quality depth map and static saliency map at the same
time.
- Abstract(参考訳): 静的で動く物体は実写ビデオでしばしば起こる。
ほとんどのビデオオブジェクトセグメンテーションは、移動物体を知覚する動きの手がかりの抽出と活用にのみ焦点を合わせている。
静的物体のフレームに直面すると、移動物体予測器は、低品質の光フローマップのような不確実な動き情報による失敗を予測できる。
さらに、rgb、深さ、光流、静塩分などの異なるソースは、オブジェクトに関する有用な情報を提供することができる。
しかし、既存のアプローチではrgbとrgbと光学フローの両方しか考慮していない。
本稿では,ゼロショット映像オブジェクトセグメンテーション(zvos)のための適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
移動物体予測器において,マルチソース融合構造を提案する。
まず、各ソースの空間的重要性を、知覚的空間的注意モジュール(ISAM)の助けを借りて強調する。
第二に、動き強調モジュール(MEM)は、デコーダにおける静的および移動的特徴の表現を改善するために、純粋な前景運動注意を生成するように設計されている。
さらに、ソース間互換性のない機能をフィルタリングする機能浄化モジュール(FPM)を設計する。
ISAM、MEM、FPMを使用することで、マルチソース機能は効果的に融合される。
さらに,光フローマップの品質を評価するための適応型予測器融合ネットワーク(apf)を構築し,静止物体予測器と移動物体予測器からの予測を融合することにより,低品質光フローマップの失敗結果への過度な依存を防止する。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
そして、静的オブジェクト予測器は、高品質の深度マップと静的塩分マップを同時に正確に予測する。
関連論文リスト
- Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Treating Motion as Option with Output Selection for Unsupervised Video
Object Segmentation [17.71871884366252]
ビデオオブジェクトセグメンテーション(VOS)は、オブジェクトに関する外部のガイダンスなしで、ビデオ内の最も健全なオブジェクトを検出することを目的としている。
近年,光学フローマップから抽出した動きキューとRGB画像から抽出した外観キューを協調的に利用する手法が提案されている。
本稿では,動作キューを任意に扱うことで,新たな動作・アズ・オプション・ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-26T09:34:13Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - FOLT: Fast Multiple Object Tracking from UAV-captured Videos Based on
Optical Flow [27.621524657473945]
複数物体追跡(MOT)はコンピュータビジョンにおいてよく研究されている。
しかし、無人航空機(UAV)が撮影したビデオのMOTは、小さな物体の大きさ、ぼやけた物体の外観、そして非常に大きくて不規則な動きのために依然として困難である。
我々はこれらの問題を緩和し、UAVビューで高速かつ正確なMOTに到達するためにFOLTを提案する。
論文 参考訳(メタデータ) (2023-08-14T15:24:44Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot
Video Object Segmentation [86.94578023985677]
ゼロショットビデオオブジェクトセグメンテーションのための新しいマルチソースフュージョンネットワークを提案する。
提案手法は,最先端技術に対する魅力的な性能を実現する。
論文 参考訳(メタデータ) (2021-08-11T07:37:44Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。