Fugu-MT 論文翻訳(概要): SlowFast Network for Continuous Sign Language Recognition

論文の概要: SlowFast Network for Continuous Sign Language Recognition

arxiv url: http://arxiv.org/abs/2309.12304v1
Date: Thu, 21 Sep 2023 17:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 13:35:48.151976
Title: SlowFast Network for Continuous Sign Language Recognition
Title（参考訳）: 連続手話認識のためのSlowFast Network
Authors: Junseok Ahn, Youngjoon Jang, Joon Son Chung
Abstract要約: 本研究は,連続手話認識のための空間的特徴と動的特徴を効果的に抽出するものである。本稿では,C SLRの特性を念頭に設計した2つの特徴融合法を提案する。提案手法は,一般的なC SLRデータセットの最先端性能より優れていることを示す。
参考スコア（独自算出の注目度）: 16.313738877250596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The objective of this work is the effective extraction of spatial and dynamic features for Continuous Sign Language Recognition (CSLR). To accomplish this, we utilise a two-pathway SlowFast network, where each pathway operates at distinct temporal resolutions to separately capture spatial (hand shapes, facial expressions) and dynamic (movements) information. In addition, we introduce two distinct feature fusion methods, carefully designed for the characteristics of CSLR: (1) Bi-directional Feature Fusion (BFF), which facilitates the transfer of dynamic semantics into spatial semantics and vice versa; and (2) Pathway Feature Enhancement (PFE), which enriches dynamic and spatial representations through auxiliary subnetworks, while avoiding the need for extra inference time. As a result, our model further strengthens spatial and dynamic representations in parallel. We demonstrate that the proposed framework outperforms the current state-of-the-art performance on popular CSLR datasets, including PHOENIX14, PHOENIX14-T, and CSL-Daily.
Abstract（参考訳）: 本研究の目的は,連続手話認識(cslr)のための空間的・動的特徴の効果的な抽出である。そこで我々は,2経路のSlowFastネットワークを利用し,それぞれの経路が時間分解能で動作し,空間(手形,表情)と動的(動き)情報を分離する。さらに, cslrの特性を念頭に置いて設計された2つの特徴融合法について紹介する。(1)空間意味論への動的意味論の伝達を容易にする双方向特徴融合 (bff) と, (2)補助サブネットワークによる動的・空間的表現を充実させる経路特徴強化 (pfe) である。その結果,我々のモデルは空間的および動的表現の並列性をさらに強化する。提案手法は,PHOENIX14,PHOENIX14-T,CSL-DailyなどのCSLRデータセット上での最先端性能よりも優れていることを示す。

関連論文リスト

Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T06:54:44Z)
Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文参考訳（メタデータ） (2025-04-23T06:44:46Z)
Electromyography-Based Gesture Recognition: Hierarchical Feature Extraction for Enhanced Spatial-Temporal Dynamics [0.7083699704958353]
本稿では, 時間的時間的特徴抽出手法として, 軽量な圧縮励起深層学習手法を提案する。提案したモデルは、Ninapro DB2、DB4、DB5データセットでそれぞれ96.41%、92.40%、93.34%の精度でテストされた。
論文参考訳（メタデータ） (2025-04-04T07:11:12Z)
GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling [32.47567372398872]
GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。 BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
論文参考訳（メタデータ） (2025-01-31T05:34:59Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
Semantic-Enhanced Representation Learning for Road Networks with Temporal Dynamics [33.940044533340235]
道路網の汎用表現を学習するためのToastという新しいフレームワークと、その先進的なDyToastを紹介する。具体的には,交通パターンと走行意味論という,道路ネットワークに固有の2つの重要な意味的特徴を符号化することを提案する。提案するフレームワークは,最先端のベースラインを大きなマージンで一貫して上回っている。
論文参考訳（メタデータ） (2024-03-18T05:59:56Z)
LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial Expression Recognition [19.5702895176141]
野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。 DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。 DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
論文参考訳（メタデータ） (2023-05-05T07:53:13Z)
Dynamic Graph Convolutional Network with Attention Fusion for Traffic Flow Prediction [10.3426659705376]
本稿では,同期時空間相関をモデル化するための注意融合型動的グラフ畳み込みネットワークを提案する。我々は、4つの実世界の交通データセットにおいて、我々の手法が18のベースライン法と比較して最先端の性能を上回ることを示す広範な実験を行った。
論文参考訳（メタデータ） (2023-02-24T12:21:30Z)
Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。我々はCNNを用いて各フレームを視覚的特徴系列に変換する。実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文参考訳（メタデータ） (2022-05-10T08:47:15Z)
Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T14:50:50Z)
Spatial-Temporal Correlation and Topology Learning for Person Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。 CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文参考訳（メタデータ） (2021-04-15T14:32:12Z)
Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文参考訳（メタデータ） (2021-04-08T06:48:02Z)
Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文参考訳（メタデータ） (2021-03-23T03:06:26Z)
DS-Net: Dynamic Spatiotemporal Network for Video Salient Object Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-09T06:42:30Z)
Co-Saliency Spatio-Temporal Interaction Network for Person Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。 CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文参考訳（メタデータ） (2020-04-10T10:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。