論文の概要: Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos
- arxiv url: http://arxiv.org/abs/2007.11460v3
- Date: Tue, 19 Apr 2022 13:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:29:51.310382
- Title: Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos
- Title(参考訳): パーセプトロン合成ネットワーク:ビデオにおけるアクションスケールのばらつきを再考する
- Authors: Yuan Tian, Guangtao Zhai, Zhiyong Gao
- Abstract要約: ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
- 参考スコア(独自算出の注目度): 48.57686258913474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action recognition has been partially addressed by the CNNs stacking of
fixed-size 3D kernels. However, these methods may under-perform for only
capturing rigid spatial-temporal patterns in single-scale spaces, while
neglecting the scale variances across different action primitives. To overcome
this limitation, we propose to learn the optimal-scale kernels from the data.
More specifically, an \textit{action perceptron synthesizer} is proposed to
generate the kernels from a bag of fixed-size kernels that are interacted by
dense routing paths. To guarantee the interaction richness and the information
capacity of the paths, we design the novel \textit{optimized feature fusion
layer}. This layer establishes a principled universal paradigm that suffices to
cover most of the current feature fusion techniques (e.g., channel shuffling,
and channel dropout) for the first time. By inserting the \textit{synthesizer},
our method can easily adapt the traditional 2D CNNs to the video understanding
tasks such as action recognition with marginal additional computation cost. The
proposed method is thoroughly evaluated over several challenging datasets
(i.e., Somehting-to-Somthing, Kinetics and Diving48) that highly require
temporal reasoning or appearance discriminating, achieving new state-of-the-art
results. Particularly, our low-resolution model outperforms the recent strong
baseline methods, i.e., TSM and GST, with less than 30\% of their computation
cost.
- Abstract(参考訳): ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
しかし、これらの手法は、異なるアクションプリミティブ間のスケールのばらつきを無視しつつ、単一スケール空間における厳密な時空間パターンのみをキャプチャするために、性能が低い。
この限界を克服するため,我々はデータから最適なスケールカーネルを学ぶことを提案する。
より具体的には、密度の高い経路によって相互作用する固定サイズのカーネルの袋からカーネルを生成するために、 \textit{action perceptron synthesizer} が提案されている。
経路の相互作用の豊かさと情報容量を保証するため,新しい「textit{optimized feature fusion layer}」を設計する。
この層は、現在の機能融合技術(チャネルシャッフルやチャネルドロップアウトなど)の大部分を初めてカバーする、原則化された普遍的パラダイムを確立します。
textit{synthesizer}を挿入することで、従来の2d cnnをアクション認識などのビデオ理解タスクに容易に適用でき、余分な計算コストがかかる。
提案手法は, 時間的推論や外見の識別が要求される複数の課題データセット(Somehting-to-Somthing, Kinetics, Diving48)に対して徹底的に評価され, 新たな最先端結果が得られた。
特に,我々の低分解能モデルは,計算コストの30%未満で,最近の強力なベースライン法,すなわちtsmとgstを上回っている。
関連論文リスト
- Depth-agnostic Single Image Dehazing [12.51359372069387]
本研究では, 深度に依存しないデータセット(DA-HAZE)を生成することで, ヘイズ密度とシーン深度の関係を分離する, 単純かつ斬新な合成法を提案する。
実験によると、DA-HAZEでトレーニングされたモデルは、SOTSとDA-SOTSの相違が少なく、実世界のベンチマークで大幅に改善されている。
我々は、専用に設計されたブロックが組み込まれているデハジングのために、U-Netベースのアーキテクチャを再考する。
論文 参考訳(メタデータ) (2024-01-14T06:33:11Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Neural Kernel Surface Reconstruction [80.51581494300423]
本稿では,大規模でスパースでノイズの多い点雲から3次元暗示面を再構成する新しい手法を提案する。
我々のアプローチは、最近導入されたNeural Kernel Fields表現に基づいている。
論文 参考訳(メタデータ) (2023-05-31T06:25:18Z) - Multi-encoder Network for Parameter Reduction of a Kernel-based
Interpolation Architecture [10.08097582267397]
畳み込みニューラルネットワーク(CNN)はこの分野での最近の進歩の最前線にある。
これらのネットワークの多くは多くのパラメータを必要とし、多くのパラメータは重い重荷を意味する。
本稿では,一般的なフローレスカーネルネットワークにおけるパラメータ削減手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T16:02:55Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。
最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。
関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文 参考訳(メタデータ) (2021-05-04T15:23:29Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。