論文の概要: CorrNet+: Sign Language Recognition and Translation via Spatial-Temporal Correlation
- arxiv url: http://arxiv.org/abs/2404.11111v1
- Date: Wed, 17 Apr 2024 06:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:04:52.093009
- Title: CorrNet+: Sign Language Recognition and Translation via Spatial-Temporal Correlation
- Title(参考訳): CorrNet+:時空間相関による手話認識と翻訳
- Authors: Lianyu Hu, Wei Feng, Liqing Gao, Zekang Liu, Liang Wan,
- Abstract要約: 本稿では,複数のフレームにまたがる身体軌跡を明確に識別する空間時間相関ネットワークCorrNet+を提案する。
統一モデルとして、CorrNet+は2つの広範囲な手話理解タスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.961613400566474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In sign language, the conveyance of human body trajectories predominantly relies upon the coordinated movements of hands and facial expressions across successive frames. Despite the recent advancements of sign language understanding methods, they often solely focus on individual frames, inevitably overlooking the inter-frame correlations that are essential for effectively modeling human body trajectories. To address this limitation, this paper introduces a spatial-temporal correlation network, denoted as CorrNet+, which explicitly identifies body trajectories across multiple frames. In specific, CorrNet+ employs a correlation module and an identification module to build human body trajectories. Afterwards, a temporal attention module is followed to adaptively evaluate the contributions of different frames. The resultant features offer a holistic perspective on human body movements, facilitating a deeper understanding of sign language. As a unified model, CorrNet+ achieves new state-of-the-art performance on two extensive sign language understanding tasks, including continuous sign language recognition (CSLR) and sign language translation (SLT). Especially, CorrNet+ surpasses previous methods equipped with resource-intensive pose-estimation networks or pre-extracted heatmaps for hand and facial feature extraction. Compared with CorrNet, CorrNet+ achieves a significant performance boost across all benchmarks while halving the computational overhead. A comprehensive comparison with previous spatial-temporal reasoning methods verifies the superiority of CorrNet+. Code is available at https://github.com/hulianyuyy/CorrNet_Plus.
- Abstract(参考訳): 手話では、人体の軌跡の伝達は、主に連続したフレーム間の手と表情の協調した動きに依存している。
近年の手話理解手法の進歩にもかかわらず、それらは多くの場合、人体軌道を効果的にモデル化するのに不可欠なフレーム間の相関を見越して、個々のフレームにのみ焦点を当てている。
この制限に対処するために,複数のフレームにまたがる身体の軌跡を明確に識別する空間時間相関ネットワークCorrNet+を提案する。
具体的には、CorrNet+は相関モジュールと識別モジュールを使用して人体軌道を構築する。
その後、時間的アテンションモジュールが続き、異なるフレームのコントリビューションを適応的に評価する。
結果として得られる特徴は、人体の動きに関する全体論的な視点を提供し、手話の理解を深める。
統一モデルとして、CorrNet+は、連続手話認識(CSLR)と手話翻訳(SLT)を含む2つの広範な手話理解タスクにおいて、最先端のパフォーマンスを達成する。
特に、CorrNet+は、リソース集約的なポーズ推定ネットワークや、手と顔の特徴抽出のための事前抽出されたヒートマップを備えた従来の手法を超越している。
CorrNetと比較すると、CorrNet+は計算オーバーヘッドを半分にしながら、すべてのベンチマークで大幅なパフォーマンス向上を実現している。
従来の空間的時間的推論手法との総合的な比較は、CorrNet+の優位性を検証する。
コードはhttps://github.com/hulianyuyy/CorrNet_Plus.comで入手できる。
関連論文リスト
- Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - TCNet: Continuous Sign Language Recognition from Trajectories and Correlated Regions [10.954210339694841]
連続手話認識(CSL)における鍵は、入力から経時的に長距離空間的相互作用を効率的にキャプチャする。
トラジェクトリと時間的関連領域から映像情報トラジェクトリを効果的にモデル化するハイブリッドネットワークTCNetを提案する。
PHOENIX14, PHOENIX14-T, CSL, CSLの4つの大規模データセットについて実験を行った。
論文 参考訳(メタデータ) (2024-03-18T14:20:17Z) - On-the-Fly Syntax Highlighting: Generalisation and Speed-ups [2.208443815105053]
オンザフライ構文強調は、視覚二次表記値を言語派生のそれぞれの文字と素早く関連付けるタスクである。
スピード制約はツールのユーザビリティを保証するために不可欠であり、オンラインソースコードにアクセスするエンドユーザの応答性を示す。
コードの理解力を高めるためには、正確なハイライトを達成することが重要です。
このようなリゾルバの開発コストに対処することは、多くのプログラミング言語のバージョンを考えると必須である。
論文 参考訳(メタデータ) (2024-02-13T19:43:22Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Continuous Sign Language Recognition with Correlation Network [6.428695655854854]
本研究では, フレーム間の物体軌跡を明示的に捕捉し, 利用するための相関ネットワーク (CorrNet) を提案する。
CorrNetは、4つの大規模データセットで新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-03-06T15:02:12Z) - Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。
テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。
LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-01-30T17:34:43Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence
Semantic Matching [66.65398852962177]
文意味マッチングのための新しい動的再読ネットワーク(DRr-Net)を開発した。
DRr-Netをローカルに認識する動的再読み取り注意ネット(LadRa-Net)に拡張する
2つの一般的な文意味マッチングタスクの実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-08-06T02:07:04Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。