論文の概要: PIC: Permutation Invariant Convolution for Recognizing Long-range
Activities
- arxiv url: http://arxiv.org/abs/2003.08275v1
- Date: Wed, 18 Mar 2020 15:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 12:40:05.981048
- Title: PIC: Permutation Invariant Convolution for Recognizing Long-range
Activities
- Title(参考訳): PIC:長距離活動認識のための変分不変畳み込み
- Authors: Noureldien Hussein, Efstratios Gavves, Arnold W.M. Smeulders
- Abstract要約: 本稿では、長距離活動の時間構造をモデル化する新しいニューラルネットワーク層であるPIC(Permutation Invariant Convolution)を提案する。
標準的な畳み込みとは異なり、PICは受容領域内の特徴の時間的置換に不変であり、弱い時間構造をモデル化する資格がある。
自己注意とは対照的に、PICは共有重量を使い、長く騒々しいビデオの中で最も差別的な視覚的証拠を検出することができる。
- 参考スコア(独自算出の注目度): 38.54401034204054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural operations as convolutions, self-attention, and vector aggregation are
the go-to choices for recognizing short-range actions. However, they have three
limitations in modeling long-range activities. This paper presents PIC,
Permutation Invariant Convolution, a novel neural layer to model the temporal
structure of long-range activities. It has three desirable properties. i.
Unlike standard convolution, PIC is invariant to the temporal permutations of
features within its receptive field, qualifying it to model the weak temporal
structures. ii. Different from vector aggregation, PIC respects local
connectivity, enabling it to learn long-range temporal abstractions using
cascaded layers. iii. In contrast to self-attention, PIC uses shared weights,
making it more capable of detecting the most discriminant visual evidence
across long and noisy videos. We study the three properties of PIC and
demonstrate its effectiveness in recognizing the long-range activities of
Charades, Breakfast, and MultiThumos.
- Abstract(参考訳): 畳み込み、自己注意、ベクトル集約などの神経操作は、短距離行動を認識するための選択肢である。
しかし、長距離活動のモデリングには3つの制限がある。
本稿では,長期活動の時間的構造をモデル化する新しい神経層であるpic,permutation invariant convolutionを提案する。
望ましい性質は3つある。
私は...
標準的な畳み込みとは異なり、PICは受容領域内の特徴の時間的置換に不変であり、弱い時間構造をモデル化する資格がある。
私は...
ベクトルアグリゲーションと異なり、PICは局所接続を尊重し、カスケード層を用いて長距離時間抽象を学習することができる。
第3回。
自己注意とは対照的に、PICは共有重量を使い、長く騒々しいビデオの中で最も差別的な視覚的証拠を検出することができる。
本研究では,picの3つの特性について検討し,シャレード,朝食,マルチトゥモスの長距離活動の認識にその効果を示す。
関連論文リスト
- Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action
and Gesture Recognition [30.975823858419965]
我々は、RGB-Dアクションとジェスチャー認識のためのMFST(Multi-stage Factorized-Trans)と呼ばれる革新的なアーキテクチャを提案する。
MFSTモデルは、3次元差分コンステム(CDC-Stem)モジュールと複数の分解時間段階から構成される。
論文 参考訳(メタデータ) (2023-08-23T08:49:43Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Efficient Transformer based Method for Remote Sensing Image Change
Detection [17.553240434628087]
シーン内のオブジェクトの複雑さのため、高解像度なリモートセンシングcdは依然として困難である。
空間時間領域内のコンテキストを効率的に効果的にモデル化するためのバイテンポラル画像変換器(BiT)を提案する。
BiTベースのモデルは、計算コストとモデルパラメータのわずか3倍のコストで純粋に畳み込みベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-02-27T13:08:46Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - TEA: Temporal Excitation and Aggregation for Action Recognition [31.076707274791957]
本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
論文 参考訳(メタデータ) (2020-04-03T06:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。