論文の概要: PNL: Efficient Long-Range Dependencies Extraction with Pyramid Non-Local
Module for Action Recognition
- arxiv url: http://arxiv.org/abs/2006.05091v1
- Date: Tue, 9 Jun 2020 07:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:02:46.739616
- Title: PNL: Efficient Long-Range Dependencies Extraction with Pyramid Non-Local
Module for Action Recognition
- Title(参考訳): PNL: 動作認識のためのピラミッド非局所モジュールを用いた効率的な長距離依存性抽出
- Authors: Yuecong Xu, Haozhi Cao, Jianfei Yang, Kezhi Mao, Jianxiong Yin and
Simon See
- Abstract要約: 非ローカルな手段にインスパイアされた非ローカルなブロックは、この問題に対処するために設計されている。
非ローカルブロックは、元のネットワークに計算コストを大幅に増加させる。
また、ビデオの地域相関をモデル化する能力も欠如している。
構造されたピラミッドモジュールにおける局所的相関を組み込んで非局所ブロックを拡張したピラミッド非局所(PNL)モジュールを提案する。
- 参考スコア(独自算出の注目度): 19.010874017607247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-range spatiotemporal dependencies capturing plays an essential role in
improving video features for action recognition. The non-local block inspired
by the non-local means is designed to address this challenge and have shown
excellent performance. However, the non-local block brings significant increase
in computation cost to the original network. It also lacks the ability to model
regional correlation in videos. To address the above limitations, we propose
Pyramid Non-Local (PNL) module, which extends the non-local block by
incorporating regional correlation at multiple scales through a pyramid
structured module. This extension upscales the effectiveness of non-local
operation by attending to the interaction between different regions. Empirical
results prove the effectiveness and efficiency of our PNL module, which
achieves state-of-the-art performance of 83.09% on the Mini-Kinetics dataset,
with decreased computation cost compared to the non-local block.
- Abstract(参考訳): 長時間の時空間依存性のキャプチャは、アクション認識のためのビデオ機能の改善に不可欠である。
非局所的手法に触発された非局所的ブロックは、この課題に対処するために設計され、優れた性能を示している。
しかし、非ローカルブロックは元のネットワークに計算コストを大幅に増加させる。
また、ビデオの地域相関をモデル化する能力も欠如している。
上記の制限に対処するため、ピラミッド構造モジュールを介して複数のスケールで局所相関を組み込んで非局所ブロックを拡張するピラミッド非局所(PNL)モジュールを提案する。
この拡張は、異なる領域間の相互作用に対応することによって、非ローカル操作の有効性を高める。
実験によりPNLモジュールの有効性と効率を実証し,Mini-Kineticsデータセット上で83.09%の最先端性能を実現し,非局所ブロックと比較して計算コストを削減した。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Region-Enhanced Feature Learning for Scene Semantic Segmentation [19.20735517821943]
計算負担を軽減するために,細粒度点やボクセルの代わりに点雲の中間表現として領域を用いることを提案する。
本研究では,セマンティック空間領域抽出段階と領域依存モデリング段階からなるRFEモジュールを設計する。
我々のREFL-NetはScanNetV2で1.8% mIoUゲイン、S3DISデータセットで1.7% mIoUゲインを無視可能な計算コストで達成している。
論文 参考訳(メタデータ) (2023-04-15T06:35:06Z) - FedSpeed: Larger Local Interval, Less Communication Round, and Higher
Generalization Accuracy [84.45004766136663]
フェデレートラーニング(Federated Learning)は、分散機械学習フレームワークである。
これは、局所的不整合最適と局所的過度な適合による頑丈なクライアントドリフトによってもたらされる非消滅バイアスに悩まされる。
本稿では,これらの問題による負の影響を軽減するために,新しい実用的手法であるFedSpeedを提案する。
論文 参考訳(メタデータ) (2023-02-21T03:55:29Z) - Efficient Non-Local Contrastive Attention for Image Super-Resolution [48.093500219958834]
非局所的注意(NLA)は、自然画像の内在的特徴相関を利用して、単一画像超解法(SISR)に大きな改善をもたらす。
本稿では,長期視覚モデリングを行い,より関連性の高い非局所的特徴を活用するための,効率的な非局所的コントラスト注意(ENLCA)を提案する。
論文 参考訳(メタデータ) (2022-01-11T05:59:09Z) - Denoised Non-Local Neural Network for Semantic Segmentation [18.84185406522064]
クラス間ノイズとクラス内ノイズをそれぞれ除去するデノナイズド非ローカネットワーク(デノナイズドNL)を提案する。
提案したNLは,都市景観における83.5%,46.69% mIoU,ADE20Kの最先端性能を達成できる。
論文 参考訳(メタデータ) (2021-10-27T06:16:31Z) - Poly-NL: Linear Complexity Non-local Layers with Polynomials [76.21832434001759]
性能を損なわずに2次から線形に複雑性を低減できる新しい高速非局所ブロックを定式化する。
The proposed method, we dub that "Poly-NL" is competitive to state-of-the-art performance across image recognition, instance segmentation, and face detection task。
論文 参考訳(メタデータ) (2021-07-06T19:51:37Z) - Feature Completion for Occluded Person Re-Identification [138.5671859358049]
RFCブロックは、機能空間の隠された領域のセマンティクスを復元することができる。
SRFCは、隠蔽領域の特徴を予測するために、非隠蔽領域からの長距離空間コンテキストを利用する。
TRFCモジュールは、長期の時間的コンテキストをキャプチャして、SRFCの予測を洗練します。
論文 参考訳(メタデータ) (2021-06-24T02:40:40Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Region-based Non-local Operation for Video Classification [11.746833714322154]
本稿では,地域別非局所的(RNL)操作を自己注意機構のファミリーとして提案する。
チャネルアテンションモジュールと提案したRNLを組み合わせることで,市販のCNNに組み込んだアテンションチェーンを設計し,エンドツーエンドのトレーニングを行う。
提案手法の実験結果は,他の注意機構よりも優れており,Something V1データセット上での最先端性能を実現している。
論文 参考訳(メタデータ) (2020-07-17T14:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。