論文の概要: CorrNet+: Sign Language Recognition and Translation via Spatial-Temporal Correlation
- arxiv url: http://arxiv.org/abs/2404.11111v1
- Date: Wed, 17 Apr 2024 06:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:04:52.093009
- Title: CorrNet+: Sign Language Recognition and Translation via Spatial-Temporal Correlation
- Title(参考訳): CorrNet+:時空間相関による手話認識と翻訳
- Authors: Lianyu Hu, Wei Feng, Liqing Gao, Zekang Liu, Liang Wan,
- Abstract要約: 本稿では,複数のフレームにまたがる身体軌跡を明確に識別する空間時間相関ネットワークCorrNet+を提案する。
統一モデルとして、CorrNet+は2つの広範囲な手話理解タスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.961613400566474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In sign language, the conveyance of human body trajectories predominantly relies upon the coordinated movements of hands and facial expressions across successive frames. Despite the recent advancements of sign language understanding methods, they often solely focus on individual frames, inevitably overlooking the inter-frame correlations that are essential for effectively modeling human body trajectories. To address this limitation, this paper introduces a spatial-temporal correlation network, denoted as CorrNet+, which explicitly identifies body trajectories across multiple frames. In specific, CorrNet+ employs a correlation module and an identification module to build human body trajectories. Afterwards, a temporal attention module is followed to adaptively evaluate the contributions of different frames. The resultant features offer a holistic perspective on human body movements, facilitating a deeper understanding of sign language. As a unified model, CorrNet+ achieves new state-of-the-art performance on two extensive sign language understanding tasks, including continuous sign language recognition (CSLR) and sign language translation (SLT). Especially, CorrNet+ surpasses previous methods equipped with resource-intensive pose-estimation networks or pre-extracted heatmaps for hand and facial feature extraction. Compared with CorrNet, CorrNet+ achieves a significant performance boost across all benchmarks while halving the computational overhead. A comprehensive comparison with previous spatial-temporal reasoning methods verifies the superiority of CorrNet+. Code is available at https://github.com/hulianyuyy/CorrNet_Plus.
- Abstract(参考訳): 手話では、人体の軌跡の伝達は、主に連続したフレーム間の手と表情の協調した動きに依存している。
近年の手話理解手法の進歩にもかかわらず、それらは多くの場合、人体軌道を効果的にモデル化するのに不可欠なフレーム間の相関を見越して、個々のフレームにのみ焦点を当てている。
この制限に対処するために,複数のフレームにまたがる身体の軌跡を明確に識別する空間時間相関ネットワークCorrNet+を提案する。
具体的には、CorrNet+は相関モジュールと識別モジュールを使用して人体軌道を構築する。
その後、時間的アテンションモジュールが続き、異なるフレームのコントリビューションを適応的に評価する。
結果として得られる特徴は、人体の動きに関する全体論的な視点を提供し、手話の理解を深める。
統一モデルとして、CorrNet+は、連続手話認識(CSLR)と手話翻訳(SLT)を含む2つの広範な手話理解タスクにおいて、最先端のパフォーマンスを達成する。
特に、CorrNet+は、リソース集約的なポーズ推定ネットワークや、手と顔の特徴抽出のための事前抽出されたヒートマップを備えた従来の手法を超越している。
CorrNetと比較すると、CorrNet+は計算オーバーヘッドを半分にしながら、すべてのベンチマークで大幅なパフォーマンス向上を実現している。
従来の空間的時間的推論手法との総合的な比較は、CorrNet+の優位性を検証する。
コードはhttps://github.com/hulianyuyy/CorrNet_Plus.comで入手できる。
関連論文リスト
- Continuous Sign Language Recognition Using Intra-inter Gloss Attention [0.0]
本研究では,手話認識研究において,インター・グロス・アテンション・モジュール(inter-inter gloss attention module)と呼ばれる新しいモジュールを導入する。
グロス内注目モジュールでは、動画を等サイズのチャンクに分割し、各チャンク内に自己注意機構を適用する。
PHOENIX-2014ベンチマークデータセットの実験結果から,本手法が手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2024-06-26T13:21:08Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - TCNet: Continuous Sign Language Recognition from Trajectories and Correlated Regions [10.954210339694841]
連続手話認識(CSL)における鍵は、入力から経時的に長距離空間的相互作用を効率的にキャプチャする。
トラジェクトリと時間的関連領域から映像情報トラジェクトリを効果的にモデル化するハイブリッドネットワークTCNetを提案する。
PHOENIX14, PHOENIX14-T, CSL, CSLの4つの大規模データセットについて実験を行った。
論文 参考訳(メタデータ) (2024-03-18T14:20:17Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Continuous Sign Language Recognition with Correlation Network [6.428695655854854]
本研究では, フレーム間の物体軌跡を明示的に捕捉し, 利用するための相関ネットワーク (CorrNet) を提案する。
CorrNetは、4つの大規模データセットで新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-03-06T15:02:12Z) - Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。
テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。
LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-01-30T17:34:43Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence
Semantic Matching [66.65398852962177]
文意味マッチングのための新しい動的再読ネットワーク(DRr-Net)を開発した。
DRr-Netをローカルに認識する動的再読み取り注意ネット(LadRa-Net)に拡張する
2つの一般的な文意味マッチングタスクの実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-08-06T02:07:04Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。