Fugu-MT 論文翻訳(概要): A Deep Moving-camera Background Model

論文の概要: A Deep Moving-camera Background Model

arxiv url: http://arxiv.org/abs/2209.07923v1
Date: Fri, 16 Sep 2022 13:36:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-19 12:50:20.950110
Title: A Deep Moving-camera Background Model
Title（参考訳）: 奥行き移動カメラの背景モデル
Authors: Guy Erez, Ron Shapira Weber, Oren Freifeld
Abstract要約: ビデオ解析ビデオにおける移動カメラ背景モデル(MCBM)の学習手法を提案する。 DeepMCBMは関節アライメントに関連する問題を排除し、最先端の結果を得る。我々は、DeepMCBMのユーティリティを、他のメソッドの範囲を超えて、様々なビデオでデモする。
参考スコア（独自算出の注目度）: 5.564705758320338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In video analysis, background models have many applications such as background/foreground separation, change detection, anomaly detection, tracking, and more. However, while learning such a model in a video captured by a static camera is a fairly-solved task, in the case of a Moving-camera Background Model (MCBM), the success has been far more modest due to algorithmic and scalability challenges that arise due to the camera motion. Thus, existing MCBMs are limited in their scope and their supported camera-motion types. These hurdles also impeded the employment, in this unsupervised task, of end-to-end solutions based on deep learning (DL). Moreover, existing MCBMs usually model the background either on the domain of a typically-large panoramic image or in an online fashion. Unfortunately, the former creates several problems, including poor scalability, while the latter prevents the recognition and leveraging of cases where the camera revisits previously-seen parts of the scene. This paper proposes a new method, called DeepMCBM, that eliminates all the aforementioned issues and achieves state-of-the-art results. Concretely, first we identify the difficulties associated with joint alignment of video frames in general and in a DL setting in particular. Next, we propose a new strategy for joint alignment that lets us use a spatial transformer net with neither a regularization nor any form of specialized (and non-differentiable) initialization. Coupled with an autoencoder conditioned on unwarped robust central moments (obtained from the joint alignment), this yields an end-to-end regularization-free MCBM that supports a broad range of camera motions and scales gracefully. We demonstrate DeepMCBM's utility on a variety of videos, including ones beyond the scope of other methods. Our code is available at https://github.com/BGU-CS-VIL/DeepMCBM .
Abstract（参考訳）: ビデオ解析において、背景モデルには背景/地上分離、変化検出、異常検出、追跡など多くの応用がある。しかし、静止カメラが捉えたビデオでそのようなモデルを学習することは、移動カメラ背景モデル(MCBM)の場合、かなり解決された作業であるが、カメラの動きによって生じるアルゴリズム的およびスケーラビリティ上の課題により、成功ははるかに控えめである。したがって、既存のMCBMはスコープとカメラモーションタイプに制限がある。これらのハードルは、ディープラーニング(DL)に基づいたエンドツーエンドソリューションの、この教師なしのタスクにおける雇用を妨げた。さらに、既存のmcbmは通常、通常大きなパノラマ画像の領域またはオンラインの方法で背景をモデル化する。残念なことに、前者はスケーラビリティの低さなどいくつかの問題を起こし、後者はカメラが以前入手したシーンを再訪するケースの認識と活用を妨げている。本稿では,上記の問題をすべて排除し,最先端の結果を得る新しい手法であるdeepmcbmを提案する。具体的には,まずビデオフレームのジョイントアライメントの難しさ,特にdl設定における問題点を明らかにする。次に,正規化や特殊(かつ非微分可能)な初期化をもたない空間的トランスフォーマーネットを併用するジョイントアライメントのための新しい戦略を提案する。アンウォープされた頑健な中央モーメント(関節アライメントから得られる)に条件付けされたオートエンコーダと組み合わせることで、広い範囲のカメラモーションとスケールをサポートするエンドツーエンドの正規化フリーMCBMが得られる。我々は、DeepMCBMのユーティリティを、他のメソッドの範囲を超えて、様々なビデオでデモする。私たちのコードはhttps://github.com/BGU-CS-VIL/DeepMCBMで利用可能です。

関連論文リスト

GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文参考訳（メタデータ） (2025-06-30T15:24:27Z)
FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文参考訳（メタデータ） (2025-03-29T14:26:06Z)
CPA: Camera-pose-awareness Diffusion Transformer for Video Generation [15.512186399114999]
CPAはテキスト・ビデオ生成のアプローチであり、テキスト・ビジュアル・空間的条件を統合している。トラジェクトリの整合性とオブジェクトの整合性において最適な性能を保ちながら、長いビデオ生成のためのLDM法よりも優れる。
論文参考訳（メタデータ） (2024-12-02T12:10:00Z)
RoMo: Robust Motion Segmentation Improves Structure from Motion [46.77236343300953]
本稿では,固定世界フレームを移動中のシーンの構成要素を特定するために,映像に基づくモーションセグメンテーションの新たなアプローチを提案する。我々の単純かつ効果的な反復法であるRoMoは、光フローとエピポーラキューと事前訓練されたビデオセグメンテーションモデルを組み合わせたものである。さらに重要なのは、市販のSfMパイプラインとセグメンテーションマスクを組み合わせることで、ダイナミックなコンテンツを持つシーンに対する最先端のカメラキャリブレーションを新たに確立し、既存の手法を実質的なマージンで上回ることだ。
論文参考訳（メタデータ） (2024-11-27T01:09:56Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文参考訳（メタデータ） (2024-06-01T02:31:16Z)
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。 CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文参考訳（メタデータ） (2024-05-27T17:58:01Z)
VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文参考訳（メタデータ） (2024-03-25T17:47:03Z)
UCMCTrack: Multi-Object Tracking with Uniform Camera Motion Compensation [9.333052173412158]
カメラの動きに頑健な新しいモーションモデルベースのトラッカーであるUCMCTrackを紹介する。フレーム単位で補償パラメータを計算する従来のCMCとは異なり、UCMCTrackはビデオシーケンスを通して同じ補償パラメータを一貫して適用する。 MOT17、MOT20、DanceTrack、KITTIなど、さまざまな課題のあるデータセットで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-12-14T14:01:35Z)
Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文参考訳（メタデータ） (2023-04-08T04:45:48Z)
A Flexible Framework for Virtual Omnidirectional Vision to Improve Operator Situation Awareness [2.817412580574242]
本稿では,ロボットのどこに設置した複数のカメラを融合させる新しい手法に基づいて,仮想プロジェクションのためのフレキシブルなフレームワークを提案する。カメラ画像と幾何学的3Dライダーデータを融合させることでシーン理解を改善するための補完的なアプローチを提案し,色付き点雲を得る。
論文参考訳（メタデータ） (2023-02-01T10:40:05Z)
Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文参考訳（メタデータ） (2022-03-14T17:55:41Z)
DyGLIP: A Dynamic Graph Model with Link Prediction for Accurate Multi-Camera Multiple Object Tracking [25.98400206361454]
Multi-Camera Multiple Object Tracking (MC-MOT) は、複数の実世界のアプリケーションに適用可能になったため、重要なコンピュータビジョンの問題である。本研究では,データアソシエーションタスクを解決するために,リンク予測を用いた動的グラフモデルを提案する。実験結果から,既存のMC-MOTアルゴリズムよりも,いくつかの実用的なデータセットにおいて大きなマージンを達成できた。
論文参考訳（メタデータ） (2021-06-12T20:22:30Z)
Self-supervised Human Detection and Segmentation via Multi-view Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文参考訳（メタデータ） (2020-12-09T15:47:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。