論文の概要: Saliency detection with moving camera via background model completion
- arxiv url: http://arxiv.org/abs/2111.01681v1
- Date: Sat, 30 Oct 2021 11:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:40:46.640723
- Title: Saliency detection with moving camera via background model completion
- Title(参考訳): 背景モデル補完による移動カメラによる塩分検出
- Authors: Yupei Zhang, Kwok-Leung Chan
- Abstract要約: 本稿では,SDBMC(Saliency Detection via background model completion)という新しいフレームワークを提案する。
バックグラウンドモデラーとディープラーニングバックグラウンド/地上セグメンテーションネットワークから構成される。
バックグラウンド/地上セグメンタを採用するが、特定のビデオデータセットで事前訓練されているため、見当たらないビデオの塩分濃度も検出できる。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To detect saliency in video is a fundamental step in many computer vision
systems. Saliency is the significant target(s) in the video. The object of
interest is further analyzed for high-level applications. The segregation of
saliency and the background can be made if they exhibit different visual cues.
Therefore, saliency detection is often formulated as background subtraction.
However, saliency detection is challenging. For instance, dynamic background
can result in false positive errors. In another scenario, camouflage will lead
to false negative errors. With moving camera, the captured scenes are even more
complicated to handle. We propose a new framework, called saliency detection
via background model completion (SD-BMC), that comprises of a background
modeler and the deep learning background/foreground segmentation network. The
background modeler generates an initial clean background image from a short
image sequence. Based on the idea of video completion, a good background frame
can be synthesized with the co-existence of changing background and moving
objects. We adopt the background/foreground segmenter, although pre-trained
with a specific video dataset, can also detect saliency in unseen videos. The
background modeler can adjust the background image dynamically when the
background/foreground segmenter output deteriorates during processing of a long
video. To the best of our knowledge, our framework is the first one to adopt
video completion for background modeling and saliency detection in videos
captured by moving camera. The results, obtained from the PTZ videos, show that
our proposed framework outperforms some deep learning-based background
subtraction models by 11% or more. With more challenging videos, our framework
also outperforms many high ranking background subtraction methods by more than
3%.
- Abstract(参考訳): 映像中の塩分を検出することは、多くのコンピュータビジョンシステムにおいて基本的なステップである。
相性(Saliency)は、ビデオの重要なターゲットである。
関心の対象は、高レベルのアプリケーションに対してさらに分析される。
異なる視覚的手がかりを示す場合、相性や背景の分離が可能である。
したがって、サリエンシ検出はしばしばバックグラウンドサブトラクションとして定式化される。
しかし、塩分検出は困難である。
例えば、動的背景は偽陽性の誤りを引き起こすことがある。
別のシナリオでは、カモフラージュは偽陰性エラーを引き起こす。
カメラを動かすと、撮影されたシーンは処理がさらに複雑になる。
本稿では,バックグラウンドモデルとディープラーニングのバックグラウンド/フォアグラウンドセグメンテーションネットワークからなる,バックグラウンドモデル補完(sd-bmc)によるサリエンシー検出という新しいフレームワークを提案する。
背景モデラーは、短い画像シーケンスから初期クリーンな背景画像を生成する。
ビデオ補完の概念に基づいて、背景の変化と移動物体の共存により、優れた背景フレームを合成することができる。
バックグラウンド/地上セグメンタを採用するが、特定のビデオデータセットで事前訓練されているため、見当たらないビデオの精度も検出できる。
背景モデラーは、長い映像の処理中に背景/前景セグメンタ出力が劣化したとき、背景画像を動的に調整することができる。
我々の知る限りでは、移動カメラで撮影したビデオの背景モデリングと相性検出にビデオ補完を採用するのは、我々のフレームワークが初めてである。
PTZビデオから得られた結果から,提案手法が深層学習に基づく背景抽出モデルよりも11%以上優れた結果を得た。
より難しいビデオでは、我々のフレームワークは、多くの高いランクのバックグラウンド減算メソッドを3%以上上回っている。
関連論文リスト
- Lester: rotoscope animation through video object segmentation and
tracking [0.0]
レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
論文 参考訳(メタデータ) (2024-02-15T11:15:54Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - Weakly Supervised Realtime Dynamic Background Subtraction [8.75682288556859]
画素単位のグランドトラスラベルを必要とせずにバックグラウンドサブトラクションを実行できる弱教師付きフレームワークを提案する。
本フレームワークは,移動対象のない画像列をトレーニングし,2つのネットワークから構成される。
提案手法は,オンライン,リアルタイム,効率的で,最小限のフレームレベルのアノテーションを必要とする。
論文 参考訳(メタデータ) (2023-03-06T03:17:48Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Autoencoder-based background reconstruction and foreground segmentation
with background noise estimation [1.3706331473063877]
本稿では,ビデオシーケンスの背景をオートエンコーダを用いて低次元多様体としてモデル化する。
提案モデルの主な特徴は、オートエンコーダが背景雑音を予測できるように訓練されており、各フレームに対してピクセル依存しきい値を計算することができることである。
提案モデルでは時間情報や動き情報を一切使用していないが,CDnet 2014 と LASIESTA データセットの非教師なしバックグラウンドサブトラクションの手法の状態を超越している。
論文 参考訳(メタデータ) (2021-12-15T09:51:00Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Motion-aware Self-supervised Video Representation Learning via
Foreground-background Merging [19.311818681787845]
我々は、選択したビデオの前景領域を背景に構成するフォアグラウンド・バックグラウンド・マージング(FAME)を提案する。
FAMEは、様々なバックボーンを用いて、異なる下流タスクのパフォーマンスを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-30T13:45:26Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Removing the Background by Adding the Background: Towards Background
Robust Self-supervised Video Representation Learning [105.42550534895828]
自己教師付き学習は、ディープニューラルネットワークの映像表現能力を改善する大きな可能性を示している。
現在の手法のいくつかは背景から騙される傾向があり、つまり、予測は動きではなく動画の背景に大きく依存する。
背景を追加することで背景の影響を取り除くことを提案する。つまり、ビデオの場合、静的なフレームをランダムに選択し、他のフレームに付加して、邪魔なビデオサンプルを構築する。
そして、モデルを強制的に、気を散らすビデオの特徴とオリジナルビデオの特徴を近づけることで、モデルが明示的に制限されるようにします。
論文 参考訳(メタデータ) (2020-09-12T11:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。