論文の概要: Multi-Scale Local-Temporal Similarity Fusion for Continuous Sign
Language Recognition
- arxiv url: http://arxiv.org/abs/2107.12762v1
- Date: Tue, 27 Jul 2021 12:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 20:27:03.156662
- Title: Multi-Scale Local-Temporal Similarity Fusion for Continuous Sign
Language Recognition
- Title(参考訳): 連続手話認識のためのマルチスケール局所時間類似融合
- Authors: Pan Xie, Zhi Cui, Yao Du, Mengyi Zhao, Jianwei Cui, Bin Wang, Xiaohui
Hu
- Abstract要約: 連続手話認識(continuous sign language recognition)は、手話動画を順序付けられた光沢シーケンスに書き起こす公的な重要なタスクである。
1次元畳み込みネットワーク(1D-CNN)を採用して、シーケンシャルフレームを時間的に融合させることが期待できる方法である。
本稿では,このタスクの時間的類似性を通じて局所的特徴を適応的に融合することを提案する。
- 参考スコア(独自算出の注目度): 4.059599144668737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous sign language recognition (cSLR) is a public significant task that
transcribes a sign language video into an ordered gloss sequence. It is
important to capture the fine-grained gloss-level details, since there is no
explicit alignment between sign video frames and the corresponding glosses.
Among the past works, one promising way is to adopt a one-dimensional
convolutional network (1D-CNN) to temporally fuse the sequential frames.
However, CNNs are agnostic to similarity or dissimilarity, and thus are unable
to capture local consistent semantics within temporally neighboring frames. To
address the issue, we propose to adaptively fuse local features via temporal
similarity for this task. Specifically, we devise a Multi-scale Local-Temporal
Similarity Fusion Network (mLTSF-Net) as follows: 1) In terms of a specific
video frame, we firstly select its similar neighbours with multi-scale
receptive regions to accommodate different lengths of glosses. 2) To ensure
temporal consistency, we then use position-aware convolution to temporally
convolve each scale of selected frames. 3) To obtain a local-temporally
enhanced frame-wise representation, we finally fuse the results of different
scales using a content-dependent aggregator. We train our model in an
end-to-end fashion, and the experimental results on RWTH-PHOENIX-Weather 2014
datasets (RWTH) demonstrate that our model achieves competitive performance
compared with several state-of-the-art models.
- Abstract(参考訳): 連続手話認識 (continuous sign language recognition, cSLR) は、手話動画を順序付けられた光沢シーケンスに書き起こす公的な重要なタスクである。
手話ビデオフレームと対応する光沢との間に明確なアライメントがないため、細かな光沢レベルの詳細を捉えることが重要である。
過去の作品では、1次元畳み込みネットワーク(1d-cnn)を採用してシーケンシャルフレームを時間的に融合させることが有望である。
しかし、CNNは類似性や異種性によらず、時間的に隣接するフレーム内で局所的に一貫した意味を捉えることができない。
この問題に対処するため,我々は局所的特徴を時間的類似性によって適応的に融合する手法を提案する。
具体的には,マルチスケールの局所的類似性融合ネットワーク (mLTSF-Net) を考案し,(1) 特定のビデオフレームに関して,まず,異なるグルース長に対応するために,複数のスケールの受容領域を持つ類似のエリアを選択する。
2) 時間的整合性を確保するために, 位置認識畳み込みを用いて, フレーム毎に時間的畳み込みを行う。
3) 局所時間的に拡張されたフレームワイズ表現を得るために, コンテンツ依存型アグリゲータを用いて, 様々なスケールの結果を融合する。
rwth-phoenix-weather 2014 datasets(rwth)の実験結果から,我々のモデルが最先端モデルと比較して競争力を発揮できることが分かる。
関連論文リスト
- FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video
Person Re-Identification [86.73532136686438]
映像人物再識別(reID)のための効率的な時空間表現法を提案する。
空間相補性モデリングのための双方向相補性ネットワーク(BiCnet)を提案する。
BiCnet-TKSは、約50%の計算量で最先端の性能を発揮する。
論文 参考訳(メタデータ) (2021-04-30T06:44:34Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。