論文の概要: Memory Enhanced Global-Local Aggregation for Video Object Detection
- arxiv url: http://arxiv.org/abs/2003.12063v1
- Date: Thu, 26 Mar 2020 17:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:41:31.643420
- Title: Memory Enhanced Global-Local Aggregation for Video Object Detection
- Title(参考訳): ビデオオブジェクト検出のためのメモリ拡張グローバルローカルアグリゲーション
- Authors: Yihong Chen, Yue Cao, Han Hu, Liwei Wang
- Abstract要約: ビデオ中のオブジェクトを認識するための重要な方法として,グローバルな意味情報と局所的な位置情報という2つがある,と我々は主張する。
メモリ拡張グローバルローカルアグリゲーション(MEGA)ネットワークを導入する。
提案手法は,ImageNet VIDデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 33.624831537299734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do humans recognize an object in a piece of video? Due to the
deteriorated quality of single frame, it may be hard for people to identify an
occluded object in this frame by just utilizing information within one image.
We argue that there are two important cues for humans to recognize objects in
videos: the global semantic information and the local localization information.
Recently, plenty of methods adopt the self-attention mechanisms to enhance the
features in key frame with either global semantic information or local
localization information. In this paper we introduce memory enhanced
global-local aggregation (MEGA) network, which is among the first trials that
takes full consideration of both global and local information. Furthermore,
empowered by a novel and carefully-designed Long Range Memory (LRM) module, our
proposed MEGA could enable the key frame to get access to much more content
than any previous methods. Enhanced by these two sources of information, our
method achieves state-of-the-art performance on ImageNet VID dataset. Code is
available at \url{https://github.com/Scalsol/mega.pytorch}.
- Abstract(参考訳): ビデオの中の物体を人間はどうやって認識するのか?
単一フレームの品質が低下しているため、一つの画像内で情報を利用することで、隠蔽対象を識別することは困難である。
ビデオ中のオブジェクトを認識するための重要な方法として,グローバルな意味情報と局所的な位置情報という2つがある,と我々は主張する。
近年,グローバルなセマンティック情報や局所的なローカライゼーション情報によってキーフレームの特徴を高めるための自己認識機構が数多く採用されている。
本稿では,グローバル情報とローカル情報の両方を十分に考慮した最初のトライアルである,メモリ強化グローバルローカルアグリゲーション(MEGA)ネットワークを紹介する。
さらに,新規かつ慎重に設計されたLong Range Memory (LRM)モジュールにより,提案したMEGAにより,キーフレームが従来手法よりもはるかに多くのコンテンツにアクセスできるようになる。
この2つの情報ソースにより,imagenet vidデータセット上での最先端のパフォーマンスを実現する。
コードは \url{https://github.com/scalsol/mega.pytorch} で入手できる。
関連論文リスト
- ReferEverything: Towards Segmenting Everything We Can Speak of in Videos [42.88584315033116]
本稿では、自然言語で記述可能なビデオのセグメンテーションフレームワークREMを提案する。
提案手法は,インターネット規模のデータセット上での映像拡散モデルから学習した視覚表現に重きを置いている。
論文 参考訳(メタデータ) (2024-10-30T17:59:26Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - Local-Aware Global Attention Network for Person Re-Identification Based on Body and Hand Images [0.0]
本稿では,身体画像と手動画像の両面から,人物Re-Idに対するエンドツーエンドの識別的深層特徴学習のための複合的アプローチを提案する。
提案手法は既存の最先端手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-09-11T09:43:42Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。
提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。
実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2021-03-24T02:08:46Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z) - An Explicit Local and Global Representation Disentanglement Framework
with Applications in Deep Clustering and Unsupervised Object Detection [9.609936822226633]
我々はSPLITと呼ばれるフレームワークを提案し、ローカルおよびグローバルな情報を解き放つことができる。
我々のフレームワークは、可変オートエンコーダ(VAE)フレームワークに生成仮定を追加する。
このフレームワークは,これらのモデル内の局所的およびグローバル的情報を効果的に切り離すことができることを示す。
論文 参考訳(メタデータ) (2020-01-24T12:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。