論文の概要: Joint Detection of Motion Boundaries and Occlusions
- arxiv url: http://arxiv.org/abs/2111.01261v1
- Date: Mon, 1 Nov 2021 21:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:09:26.835514
- Title: Joint Detection of Motion Boundaries and Occlusions
- Title(参考訳): 運動境界と咬合の協調検出
- Authors: Hannah Halin Kim, Shuzhi Yu, Carlo Tomasi
- Abstract要約: MONetは、ビデオの前方と後方の両方の動作境界を共同で検出する畳み込みニューラルネットワークである。
コストブロック機能はエンコーダで計算され、MBとOccの推定はデコーダで計算される。
MoNetは、SintelとFlyingChairsOccベンチマークの両方のタスクにおいて、従来よりもパフォーマンスが高い。
- 参考スコア(独自算出の注目度): 4.692400531340393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose MONet, a convolutional neural network that jointly detects motion
boundaries (MBs) and occlusion regions (Occs) in video both forward and
backward in time. Detection is difficult because optical flow is discontinuous
along MBs and undefined in Occs, while many flow estimators assume smoothness
and a flow defined everywhere. To reason in the two time directions
simultaneously, we direct-warp the estimated maps between the two frames. Since
appearance mismatches between frames often signal vicinity to MBs or Occs, we
construct a cost block that for each feature in one frame records the lowest
discrepancy with matching features in a search range. This cost block is
two-dimensional, and much less expensive than the four-dimensional cost volumes
used in flow analysis. Cost-block features are computed by an encoder, and MB
and Occ estimates are computed by a decoder. We found that arranging decoder
layers fine-to-coarse, rather than coarse-to-fine, improves performance. MONet
outperforms the prior state of the art for both tasks on the Sintel and
FlyingChairsOcc benchmarks without any fine-tuning on them.
- Abstract(参考訳): 本研究では,映像中の運動境界(mbs)と咬合領域(occ)を同時検出する畳み込みニューラルネットワークmonetを提案する。
検出は、光の流れがMBに沿って不連続であり、Occでは定義されていないため困難である。
2つの時間方向を同時に推論するため、2つのフレーム間の推定マップを直接ワープする。
フレーム間の外観ミスマッチは、しばしばMBやOccに近づきやすいため、1フレーム内の各特徴に対して、検索範囲内の特徴と一致した最小差を記録するコストブロックを構築する。
このコストブロックは2次元であり、フロー分析で使われる4次元のコストボリュームよりもはるかに安価である。
コストブロック機能はエンコーダで計算され、MBとOccの推定はデコーダで計算される。
デコーダ層を細粒度に配置することで性能が向上することがわかった。
MONetは、SintelとFlyingChairsOccベンチマークの両方のタスクにおいて、細かな調整をすることなく、従来の技術よりも優れている。
関連論文リスト
- DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Implicit Motion-Compensated Network for Unsupervised Video Object
Segmentation [25.41427065435164]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。
既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。
本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:03:59Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Sequential vessel segmentation via deep channel attention network [5.941874421818899]
本稿では,新しいエンコーダ・デコーダ・ディープネットワークアーキテクチャを提案する。
これは、現在のフレーム中心のスライディングウィンドウ内の2D+tシーケンシャル画像のコンテキストフレームを利用して、現在のフレームから2D容器マスクを分割する。
このアーキテクチャは、エンコーダ段階での時間空間的特徴抽出、スキップ接続層における特徴融合、デコーダ段階でのチャネルアテンション機構を備える。
論文 参考訳(メタデータ) (2021-02-10T02:45:08Z) - Occlusion Guided Scene Flow Estimation on 3D Point Clouds [4.518012967046983]
3次元シーンフロー推定は、環境に与えられた深度や範囲のセンサーを知覚する上で欠かせないツールである。
本稿では,フレーム間のフローとオクルージョンの両方の学習を密に結合する,OGSF-Netと呼ばれる新しいシーンフローアーキテクチャを提案する。
これらの共生が組み合わさって宇宙の流れをより正確に予測できる。
論文 参考訳(メタデータ) (2020-11-30T15:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。