論文の概要: Learning Discriminative Feature with CRF for Unsupervised Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2008.01270v1
- Date: Tue, 4 Aug 2020 01:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:23:43.987308
- Title: Learning Discriminative Feature with CRF for Unsupervised Video Object
Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションのためのCRFによる識別特徴の学習
- Authors: Mingmin Zhen, Shiwei Li, Lei Zhou, Jiaxiang Shang, Haoan Feng, Tian
Fang, Long Quan
- Abstract要約: 本稿では,非教師付きビデオオブジェクトセグメンテーションタスクに対処するために,識別機能ネットワーク(DFNet)を導入する。
DFNetは最先端の手法を大差で上回り、平均IoUスコアは83.4%である。
DFNetはイメージオブジェクトのコセグメンテーションタスクにも適用されます。
- 参考スコア(独自算出の注目度): 34.1031534327244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel network, called discriminative feature
network (DFNet), to address the unsupervised video object segmentation task. To
capture the inherent correlation among video frames, we learn discriminative
features (D-features) from the input images that reveal feature distribution
from a global perspective. The D-features are then used to establish
correspondence with all features of test image under conditional random field
(CRF) formulation, which is leveraged to enforce consistency between pixels.
The experiments verify that DFNet outperforms state-of-the-art methods by a
large margin with a mean IoU score of 83.4% and ranks first on the DAVIS-2016
leaderboard while using much fewer parameters and achieving much more efficient
performance in the inference phase. We further evaluate DFNet on the FBMS
dataset and the video saliency dataset ViSal, reaching a new state-of-the-art.
To further demonstrate the generalizability of our framework, DFNet is also
applied to the image object co-segmentation task. We perform experiments on a
challenging dataset PASCAL-VOC and observe the superiority of DFNet. The
thorough experiments verify that DFNet is able to capture and mine the
underlying relations of images and discover the common foreground objects.
- Abstract(参考訳): 本稿では,非教師付きビデオオブジェクトセグメンテーションタスクに対処するため,識別機能ネットワーク(DFNet)と呼ばれる新しいネットワークを提案する。
映像フレーム間の固有相関を捉えるために,グローバル視点から特徴分布を明らかにする入力画像から識別的特徴(d特徴)を学習する。
D-Featuresは、条件付きランダムフィールド(CRF)の定式化の下で、テスト画像のすべての特徴と対応性を確立するために使用される。
実験の結果、DFNetは最先端の手法よりも、平均IoUスコアが83.4%、DAVIS-2016のリーダーボードでランクインし、パラメータをはるかに少なくし、推論フェーズでより効率的なパフォーマンスを実現している。
さらに、FBMSデータセットとビデオサリエンシデータセットViSal上でDFNetを評価し、新しい最先端技術に到達した。
このフレームワークの汎用性をさらに示すために、dfnetはimage object co-segmentationタスクにも適用されます。
我々は、挑戦的なデータセットPASCAL-VOCの実験を行い、DFNetの優位性を観察する。
詳細な実験では、DFNetが画像の基盤となる関係を捉え、マイニングし、共通のフォアグラウンドオブジェクトを発見することができる。
関連論文リスト
- DDU-Net: A Domain Decomposition-based CNN for High-Resolution Image Segmentation on Multiple GPUs [46.873264197900916]
ドメイン分解に基づくU-Netアーキテクチャを導入し、入力イメージを重複しないパッチに分割する。
空間コンテキストの理解を高めるために、パッチ間情報交換を容易にするための通信ネットワークが追加される。
その結果、この手法は、パッチ間通信のない同一ネットワークと比較して、IoU(Universal over Union)スコアよりも2~3,%高い交点を達成できることが判明した。
論文 参考訳(メタデータ) (2024-07-31T01:07:21Z) - NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex
Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。
我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。
他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文 参考訳(メタデータ) (2022-09-19T06:03:17Z) - ViGAT: Bottom-up event recognition and explanation in video using
factorized graph attention network [8.395400675921515]
ViGATは、オブジェクトとフレームの特徴を導出するための純粋アテンションボトムアップアプローチである。
ビデオにおけるイベント認識と説明のタスクのために,これらの特徴を処理するためのヘッドネットワークが提案されている。
提案手法が3つの大規模公開ビデオデータセットに対して最先端の結果を提供することを示す総合的な評価研究を行った。
論文 参考訳(メタデータ) (2022-07-20T14:12:05Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。