Fugu-MT 論文翻訳(概要): Perceptron Synthesis Network: Rethinking the Action Scale Variances in Videos

論文の概要: Perceptron Synthesis Network: Rethinking the Action Scale Variances in Videos

arxiv url: http://arxiv.org/abs/2007.11460v3
Date: Tue, 19 Apr 2022 13:32:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 22:29:51.310382
Title: Perceptron Synthesis Network: Rethinking the Action Scale Variances in Videos
Title（参考訳）: パーセプトロン合成ネットワーク:ビデオにおけるアクションスケールのばらつきを再考する
Authors: Yuan Tian, Guangtao Zhai, Zhiyong Gao
Abstract要約: ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。データから最適なスケールのカーネルを学習することを提案する。固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
参考スコア（独自算出の注目度）: 48.57686258913474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video action recognition has been partially addressed by the CNNs stacking of fixed-size 3D kernels. However, these methods may under-perform for only capturing rigid spatial-temporal patterns in single-scale spaces, while neglecting the scale variances across different action primitives. To overcome this limitation, we propose to learn the optimal-scale kernels from the data. More specifically, an \textit{action perceptron synthesizer} is proposed to generate the kernels from a bag of fixed-size kernels that are interacted by dense routing paths. To guarantee the interaction richness and the information capacity of the paths, we design the novel \textit{optimized feature fusion layer}. This layer establishes a principled universal paradigm that suffices to cover most of the current feature fusion techniques (e.g., channel shuffling, and channel dropout) for the first time. By inserting the \textit{synthesizer}, our method can easily adapt the traditional 2D CNNs to the video understanding tasks such as action recognition with marginal additional computation cost. The proposed method is thoroughly evaluated over several challenging datasets (i.e., Somehting-to-Somthing, Kinetics and Diving48) that highly require temporal reasoning or appearance discriminating, achieving new state-of-the-art results. Particularly, our low-resolution model outperforms the recent strong baseline methods, i.e., TSM and GST, with less than 30\% of their computation cost.
Abstract（参考訳）: ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。しかし、これらの手法は、異なるアクションプリミティブ間のスケールのばらつきを無視しつつ、単一スケール空間における厳密な時空間パターンのみをキャプチャするために、性能が低い。この限界を克服するため,我々はデータから最適なスケールカーネルを学ぶことを提案する。より具体的には、密度の高い経路によって相互作用する固定サイズのカーネルの袋からカーネルを生成するために、 \textit{action perceptron synthesizer} が提案されている。経路の相互作用の豊かさと情報容量を保証するため,新しい「textit{optimized feature fusion layer}」を設計する。この層は、現在の機能融合技術(チャネルシャッフルやチャネルドロップアウトなど)の大部分を初めてカバーする、原則化された普遍的パラダイムを確立します。 textit{synthesizer}を挿入することで、従来の2d cnnをアクション認識などのビデオ理解タスクに容易に適用でき、余分な計算コストがかかる。提案手法は, 時間的推論や外見の識別が要求される複数の課題データセット(Somehting-to-Somthing, Kinetics, Diving48)に対して徹底的に評価され, 新たな最先端結果が得られた。特に,我々の低分解能モデルは,計算コストの30%未満で,最近の強力なベースライン法,すなわちtsmとgstを上回っている。

関連論文リスト

Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは知的ロボットにとって協調的な環境において不可欠です本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-07-01T13:55:57Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文参考訳（メタデータ） (2024-03-15T13:40:37Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。 In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文参考訳（メタデータ） (2023-10-17T01:05:28Z)
Multi-encoder Network for Parameter Reduction of a Kernel-based Interpolation Architecture [10.08097582267397]
畳み込みニューラルネットワーク(CNN)はこの分野での最近の進歩の最前線にある。これらのネットワークの多くは多くのパラメータを必要とし、多くのパラメータは重い重荷を意味する。本稿では,一般的なフローレスカーネルネットワークにおけるパラメータ削減手法を提案する。
論文参考訳（メタデータ） (2022-05-13T16:02:55Z)
Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。 GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。 2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文参考訳（メタデータ） (2022-03-16T19:19:04Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)
Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文参考訳（メタデータ） (2021-08-30T19:45:07Z)
Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文参考訳（メタデータ） (2021-05-04T15:23:29Z)
DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。また、現在の最先端よりも推論速度を25%以上向上させる。
論文参考訳（メタデータ） (2020-11-26T14:56:57Z)
Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文参考訳（メタデータ） (2020-10-20T03:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。