Fugu-MT 論文翻訳(概要): Temporal superimposed crossover module for effective continuous sign language

論文の概要: Temporal superimposed crossover module for effective continuous sign language

arxiv url: http://arxiv.org/abs/2211.03387v1
Date: Mon, 7 Nov 2022 09:33:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 17:30:07.310774
Title: Temporal superimposed crossover module for effective continuous sign language
Title（参考訳）: 実効連続手話のための時間重畳クロスオーバーモジュール
Authors: Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
Abstract要約: 本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。 2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
参考スコア（独自算出の注目度）: 10.920363368754721
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ultimate goal of continuous sign language recognition(CSLR) is to facilitate the communication between special people and normal people, which requires a certain degree of real-time and deploy-ability of the model. However, in the previous research on CSLR, little attention has been paid to the real-time and deploy-ability. In order to improve the real-time and deploy-ability of the model, this paper proposes a zero parameter, zero computation temporal superposition crossover module(TSCM), and combines it with 2D convolution to form a "TSCM+2D convolution" hybrid convolution, which enables 2D convolution to have strong spatial-temporal modelling capability with zero parameter increase and lower deployment cost compared with other spatial-temporal convolutions. The overall CSLR model based on TSCM is built on the improved ResBlockT network in this paper. The hybrid convolution of "TSCM+2D convolution" is applied to the ResBlock of the ResNet network to form the new ResBlockT, and random gradient stop and multi-level CTC loss are introduced to train the model, which reduces the final recognition WER while reducing the training memory usage, and extends the ResNet network from image classification task to video recognition task. In addition, this study is the first in CSLR to use only 2D convolution extraction of sign language video temporal-spatial features for end-to-end learning for recognition. Experiments on two large-scale continuous sign language datasets demonstrate the effectiveness of the proposed method and achieve highly competitive results.
Abstract（参考訳）: 継続的手話認識(cslr)の最終的な目標は、モデルのある程度のリアルタイムとデプロイ可能性を必要とする、特殊人と正常な人々とのコミュニケーションを促進することである。しかし、CSLRに関する以前の研究では、リアルタイムとデプロイ能力にはほとんど注意が払われていない。モデルの実時間および展開性を改善するために,ゼロパラメータ,ゼロ計算時間重畳クロスオーバーモジュール (TSCM) を提案し,それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込み(TSCM+2D畳み込み)を形成する。本稿では,tscmに基づくcslrモデル全体を改良されたresblocktネットワーク上に構築する。 tscm+2d畳み込み」のハイブリッド畳み込みをresnetネットワークのresblockに応用して新しいresblocktを形成し、ランダム勾配停止とマルチレベルctc損失を導入してモデルをトレーニングし、トレーニングメモリ使用量を減らしながら最終認識 werを削減し、resnetネットワークを画像分類タスクからビデオ認識タスクに拡張する。さらに,CSLRでは,手話ビデオの時間空間的特徴を2次元畳み込み抽出のみを用いて認識のためのエンドツーエンド学習を行った。 2つの大規模連続手話データセットの実験は,提案手法の有効性を実証し,高い競争力を発揮する。

関連論文リスト

Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。 HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文参考訳（メタデータ） (2025-10-05T09:32:12Z)
CMR-Agent: Learning a Cross-Modal Agent for Iterative Image-to-Point Cloud Registration [2.400446821380503]
Image-to-point cloud registrationは、ポイントクラウドに対するRGBイメージの相対的なカメラポーズを決定することを目的としている。学習に基づくほとんどの手法は、反復最適化のためのフィードバック機構を使わずに、特徴空間における2D-3D点対応を確立する。本稿では,登録手順を反復マルコフ決定プロセスとして再構成し,カメラポーズの漸進的な調整を可能にすることを提案する。
論文参考訳（メタデータ） (2024-08-05T11:40:59Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文参考訳（メタデータ） (2024-05-31T21:47:05Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Continuous Sign Language Recognition via Temporal Super-Resolution Network [10.920363368754721]
本稿では,深層学習に基づく空間的時間的階層的連続手話認識モデルが大量の計算量を持つという課題を論じる。データは、最終認識精度の損失を最小限に抑えながら、全体モデルを低減するために、密度の高い特徴シーケンスに再構成される。 2つの大規模手話データセットの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-07-03T00:55:45Z)
Large Scale Time-Series Representation Learning via Simultaneous Low and High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文参考訳（メタデータ） (2022-04-24T14:39:47Z)
Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。 2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文参考訳（メタデータ） (2022-04-08T06:14:22Z)
Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文参考訳（メタデータ） (2020-07-24T08:16:37Z)
Learning Monocular Visual Odometry via Self-Supervised Long-Term Modeling [106.15327903038705]
単眼視覚計測(VO)はフレーム・ツー・フレームのポーズ推定時にエラーの蓄積に苦しむ。本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。我々は、幾何VOのループ閉鎖モジュールを模倣したサイクル整合損失を含む、純粋に自己監督的な損失でネットワークを訓練する。
論文参考訳（メタデータ） (2020-07-21T17:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。