論文の概要: Self-Sufficient Framework for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2303.11771v1
- Date: Tue, 21 Mar 2023 11:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 15:14:52.175527
- Title: Self-Sufficient Framework for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のための自己満足型フレームワーク
- Authors: Youngjoon Jang, Youngtaek Oh, Jae Won Cho, Myungchul Kim, Dong-Jin
Kim, In So Kweon, Joon Son Chung
- Abstract要約: この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
- 参考スコア(独自算出の注目度): 75.60327502570242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to develop self-sufficient framework for Continuous
Sign Language Recognition (CSLR) that addresses key issues of sign language
recognition. These include the need for complex multi-scale features such as
hands, face, and mouth for understanding, and absence of frame-level
annotations. To this end, we propose (1) Divide and Focus Convolution (DFConv)
which extracts both manual and non-manual features without the need for
additional networks or annotations, and (2) Dense Pseudo-Label Refinement
(DPLR) which propagates non-spiky frame-level pseudo-labels by combining the
ground truth gloss sequence labels with the predicted sequence. We demonstrate
that our model achieves state-of-the-art performance among RGB-based methods on
large-scale CSLR benchmarks, PHOENIX-2014 and PHOENIX-2014-T, while showing
comparable results with better efficiency when compared to other approaches
that use multi-modality or extra annotations.
- Abstract(参考訳): 本研究の目的は,手話認識の重要な問題に対処する,CSLR(Continuous Sign Language Recognition)のための自己充足型フレームワークを開発することである。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
そこで本研究では,(1)手動と非手動の両方の特徴を追加のネットワークやアノテーションを必要とせずに抽出するDivide and Focus Convolution(DFConv),(2)非スパイクなフレームレベルの擬似ラベルを予測シーケンスと組み合わせて伝播するDense Pseudo-Label Refinement(DPLR)を提案する。
我々は,大規模CSLRベンチマークである PHOENIX-2014 と PHOENIX-2014-T において,RGB を用いた手法の最先端性能を実現するとともに,マルチモーダリティや付加アノテーションを用いた他の手法と比較して高い効率性を示した。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Improving Continuous Sign Language Recognition with Consistency
Constraints and Signer Removal [24.537234147678113]
CSLRバックボーンを強化するために,3つの補助タスクを提案する。
視覚モジュールを強制するために、キーポイント誘導空間アテンションモジュールを開発する。
視覚モジュールとシーケンシャルモジュールの間には、文埋め込み一貫性制約が課される。
本モデルでは,5つのベンチマークで最先端または競争性能を実現する。
論文 参考訳(メタデータ) (2022-12-26T06:38:34Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - BERT as a Teacher: Contextual Embeddings for Sequence-Level Reward [23.176481887478634]
単語を数えたり、比較したりした操作は、単語を埋め込んだり、埋め込みを比較したりすることができる。
BERT埋め込みの詳細な分析は、必要な依存関係をキャプチャするためにコンテキスト埋め込みを使用できることを実証的に示している。
我々は、無条件生成を強化学習問題とみなし、この挑戦的な環境では、報酬関数がn-gramの報酬よりも効果的な学習信号を提供することを示した。
論文 参考訳(メタデータ) (2020-03-05T16:06:37Z) - ENIGMA Anonymous: Symbol-Independent Inference Guiding Machine (system
description) [0.4893345190925177]
本稿では,飽和式自動定理証明器の勾配押し上げと神経誘導の実装について述べる。
勾配ブースティング法では、論理式のアリティに基づく符号化を考慮し、手動で抽象的な特徴を生成できる。
ニューラルネットワークでは,シンボルに依存しないグラフニューラルネットワーク(GNN)と,その用語や節の埋め込みを用いる。
論文 参考訳(メタデータ) (2020-02-13T09:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。