論文の概要: Temporal Lift Pooling for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2207.08734v1
- Date: Mon, 18 Jul 2022 16:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 19:30:41.279210
- Title: Temporal Lift Pooling for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のための時間的リフトプーリング
- Authors: Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng
- Abstract要約: 信号処理におけるリフティング・スキームから時間的リフティング・プール(TLP)を導出し,時間的階層の異なる特徴をインテリジェントにダウンサンプリングする。
我々のTLPは3段階の手順であり、信号分解、成分重み付け、情報融合を行い、洗練されたダウンサイズ特徴写像を生成する。
2つの大規模なデータセットの実験では、TLPは手作りの手法と、同様の計算オーバーヘッドを持つ大きなマージン(1.5%)で特殊空間の変種よりも優れていた。
- 参考スコア(独自算出の注目度): 6.428695655854854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pooling methods are necessities for modern neural networks for increasing
receptive fields and lowering down computational costs. However, commonly used
hand-crafted pooling approaches, e.g., max pooling and average pooling, may not
well preserve discriminative features. While many researchers have elaborately
designed various pooling variants in spatial domain to handle these limitations
with much progress, the temporal aspect is rarely visited where directly
applying hand-crafted methods or these specialized spatial variants may not be
optimal. In this paper, we derive temporal lift pooling (TLP) from the Lifting
Scheme in signal processing to intelligently downsample features of different
temporal hierarchies. The Lifting Scheme factorizes input signals into various
sub-bands with different frequency, which can be viewed as different temporal
movement patterns. Our TLP is a three-stage procedure, which performs signal
decomposition, component weighting and information fusion to generate a refined
downsized feature map. We select a typical temporal task with long sequences,
i.e. continuous sign language recognition (CSLR), as our testbed to verify the
effectiveness of TLP. Experiments on two large-scale datasets show TLP
outperforms hand-crafted methods and specialized spatial variants by a large
margin (1.5%) with similar computational overhead. As a robust feature
extractor, TLP exhibits great generalizability upon multiple backbones on
various datasets and achieves new state-of-the-art results on two large-scale
CSLR datasets. Visualizations further demonstrate the mechanism of TLP in
correcting gloss borders. Code is released.
- Abstract(参考訳): プール法は、受容場を増加させ、計算コストを下げるために、現代のニューラルネットワークに必要なものである。
しかし、例えば、最大プールや平均プールといった手作りのプーリングアプローチは、差別的特徴を十分に保存していない。
多くの研究者は、これらの制限を多くの進歩で扱えるように、空間領域の様々なプール変種を精巧に設計してきたが、手作りの手法や特殊空間変種が最適でない場合、時間的側面はめったに見つからない。
本稿では,信号処理におけるLfting Schemeから時間的リフトプーリング(TLP)を導出し,時間的階層の異なる特徴をインテリジェントにサンプリングする。
Lifting Schemeは、入力信号を異なる周波数の様々なサブバンドに分解し、異なる時間移動パターンと見なすことができる。
tlpは,信号分解,成分重み付け,情報融合を行い,細分化した特徴マップを生成する3段階の手順である。
TLPの有効性を検証するために,連続手話認識(CSLR)という長いシーケンスを持つ典型的な時間的タスクをテストベッドとして選択する。
2つの大規模なデータセットの実験では、TLPは手作りの手法と、同様の計算オーバーヘッドを持つ大きなマージン(1.5%)で特殊空間の変種よりも優れていた。
頑健な特徴抽出器として、TLPは様々なデータセット上の複数のバックボーンに対して大きな一般化性を示し、2つの大規模CSLRデータセット上で新しい最先端の結果を達成する。
可視化は、光沢境界の補正におけるTLPのメカニズムをさらに示している。
コードはリリースされます。
関連論文リスト
- Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition [10.048809585477555]
スケルトン対応手話認識は, 背景情報の影響を受けないままでいられるため, 人気が高まっている。
現在の手法では、空間グラフモジュールと時空間モジュールを使用して、それぞれ空間的特徴と時空間的特徴をキャプチャする。
本稿では,入力に敏感な連接関係を構築する2つの同時分岐からなる空間構造を提案する。
そこで我々は,複雑な人間のダイナミクスを捉えるために,マルチスケールの時間情報をモデル化する新しい時間モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T07:42:57Z) - A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition [15.080096318551346]
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
論文 参考訳(メタデータ) (2023-12-22T03:25:15Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Hierarchical Spherical CNNs with Lifting-based Adaptive Wavelets for
Pooling and Unpooling [101.72318949104627]
本稿では, 階層型畳み込みニューラルネットワーク(HS-CNN)の新たな枠組みを提案し, プールやアンプールのための適応球面ウェーブレットを学習する。
LiftHS-CNNは、画像レベルのタスクとピクセルレベルのタスクの両方において、より効率的な階層的特徴学習を実現する。
論文 参考訳(メタデータ) (2022-05-31T07:23:42Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文 参考訳(メタデータ) (2021-03-02T22:57:43Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。