論文の概要: Feature Flow: In-network Feature Flow Estimation for Video Object
Detection
- arxiv url: http://arxiv.org/abs/2009.09660v2
- Date: Wed, 10 Nov 2021 06:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:58:46.308107
- Title: Feature Flow: In-network Feature Flow Estimation for Video Object
Detection
- Title(参考訳): 特徴フロー:ビデオ物体検出のためのネットワーク内特徴フロー推定
- Authors: Ruibing Jin, Guosheng Lin, Changyun Wen, Jianliang Wang and Fayao Liu
- Abstract要約: 光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
- 参考スコア(独自算出の注目度): 56.80974623192569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical flow, which expresses pixel displacement, is widely used in many
computer vision tasks to provide pixel-level motion information. However, with
the remarkable progress of the convolutional neural network, recent
state-of-the-art approaches are proposed to solve problems directly on
feature-level. Since the displacement of feature vector is not consistent to
the pixel displacement, a common approach is to:forward optical flow to a
neural network and fine-tune this network on the task dataset. With this
method,they expect the fine-tuned network to produce tensors encoding
feature-level motion information. In this paper, we rethink this de facto
paradigm and analyze its drawbacks in the video object detection task. To
mitigate these issues, we propose a novel network (IFF-Net) with an
\textbf{I}n-network \textbf{F}eature \textbf{F}low estimation module (IFF
module) for video object detection. Without resorting pre-training on any
additional dataset, our IFF module is able to directly produce \textbf{feature
flow} which indicates the feature displacement. Our IFF module consists of a
shallow module, which shares the features with the detection branches. This
compact design enables our IFF-Net to accurately detect objects, while
maintaining a fast inference speed. Furthermore, we propose a transformation
residual loss (TRL) based on \textit{self-supervision}, which further improves
the performance of our IFF-Net. Our IFF-Net outperforms existing methods and
sets a state-of-the-art performance on ImageNet VID.
- Abstract(参考訳): 画素変位を表す光学フローは、多くのコンピュータビジョンタスクにおいて、ピクセルレベルの運動情報を提供するために広く使われている。
しかし,畳み込みニューラルネットワークの著しい進歩に伴い,特徴レベルで直接問題を解くための最新の手法が提案されている。
特徴ベクトルの変位は画素の変位と一致しないので、一般的なアプローチは:ニューラルネットワークへのフォワード光フローとタスクデータセット上のこのネットワークの微調整である。
この方法で、細調整されたネットワークが特徴レベルの動作情報をエンコードするテンソルを生成することを期待する。
本稿では,このデファクトパラダイムを再考し,その欠点をビデオオブジェクト検出タスクで分析する。
これらの問題を緩和するために、ビデオオブジェクト検出のための新しいネットワーク (IFF-Net) を提案し、そのネットワークは、ビデオオブジェクト検出のためのtextbf{I}n-network \textbf{F}eature \textbf{F}low Estimation module (IFF module) である。
追加データセットの事前トレーニングを使わずに、我々のIFFモジュールは、特徴変位を示す \textbf{feature flow} を直接生成できる。
我々のIFFモジュールは浅いモジュールで構成されており、検出ブランチと特徴を共有する。
このコンパクトな設計により、高速な推論速度を維持しながら、IFF-Netがオブジェクトを正確に検出できる。
さらに,<textit{self-supervision}に基づく変換残留損失(TRL)を提案し,IFF-Netの性能をさらに向上させる。
IFF-Netは既存の手法より優れ、ImageNet VID上で最先端のパフォーマンスを設定できる。
関連論文リスト
- DREB-Net: Dual-stream Restoration Embedding Blur-feature Fusion Network for High-mobility UAV Object Detection [38.882935730384965]
DREB-Netは、ぼやけた画像に特化して設計された、革新的なオブジェクト検出アルゴリズムである。
ブラリー画像復元補助枝を組み込むことにより、ぼやけた画像オブジェクト検出問題の特異性に対処する。
実験結果から, DREB-Netは撮影画像において, 動きのぼやけの下でオブジェクト検出タスクを効果的に行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-10-23T12:32:20Z) - Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks [13.815116154370834]
本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
論文 参考訳(メタデータ) (2024-03-13T00:48:41Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Implicit Motion-Compensated Network for Unsupervised Video Object
Segmentation [25.41427065435164]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。
既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。
本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:03:59Z) - CE-FPN: Enhancing Channel Information for Object Detection [12.954675966833372]
特徴ピラミッドネットワーク(FPN)は,オブジェクト検出におけるマルチスケール特徴の抽出に有効なフレームワークである。
3つのシンプルで効果的なモジュールを備えた新しいチャネル強化ネットワーク(CE-FPN)を提示し、これらの問題を軽減します。
実験の結果, CE-FPNはMS COCOベンチマークの最先端FPN検出器と比較して, 競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-03-19T05:51:53Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。