Fugu-MT 論文翻訳(概要): Improving Continuous Sign Language Recognition with Consistency Constraints and Signer Removal

論文の概要: Improving Continuous Sign Language Recognition with Consistency Constraints and Signer Removal

arxiv url: http://arxiv.org/abs/2212.13023v1
Date: Mon, 26 Dec 2022 06:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 14:42:30.650450
Title: Improving Continuous Sign Language Recognition with Consistency Constraints and Signer Removal
Title（参考訳）: 一貫性制約とシグナー除去による連続手話認識の改善
Authors: Ronglai Zuo and Brian Mak
Abstract要約: CSLRバックボーンを強化するために,3つの補助タスクを提案する。キーポイント誘導型空間アテンションモジュールが開発され、視覚モジュールが情報領域に集中するよう強制される。両特徴の表現力を高めるために、視覚モジュールとシーケンシャルモジュールの間に文埋め込み一貫性制約が課される。本モデルでは,5つのベンチマークで最先端または競争性能を実現する。
参考スコア（独自算出の注目度）: 19.361462310468752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most deep-learning-based continuous sign language recognition (CSLR) models share a similar backbone consisting of a visual module, a sequential module, and an alignment module. However, due to limited training samples, a connectionist temporal classification loss may not train such CSLR backbones sufficiently. In this work, we propose three auxiliary tasks to enhance the CSLR backbones. The first task enhances the visual module, which is sensitive to the insufficient training problem, from the perspective of consistency. Specifically, since the information of sign languages is mainly included in signers' facial expressions and hand movements, a keypoint-guided spatial attention module is developed to enforce the visual module to focus on informative regions, i.e., spatial attention consistency. Second, noticing that both the output features of the visual and sequential modules represent the same sentence, to better exploit the backbone's power, a sentence embedding consistency constraint is imposed between the visual and sequential modules to enhance the representation power of both features. We name the CSLR model trained with the above auxiliary tasks as consistency-enhanced CSLR, which performs well on signer-dependent datasets in which all signers appear during both training and testing. To make it more robust for the signer-independent setting, a signer removal module based on feature disentanglement is further proposed to remove signer information from the backbone. Extensive ablation studies are conducted to validate the effectiveness of these auxiliary tasks. More remarkably, with a transformer-based backbone, our model achieves state-of-the-art or competitive performance on five benchmarks, PHOENIX-2014, PHOENIX-2014-T, PHOENIX-2014-SI, CSL, and CSL-Daily.
Abstract（参考訳）: ほとんどのディープラーニングベースの連続手話認識(CSLR)モデルは、視覚モジュール、シーケンシャルモジュール、アライメントモジュールからなる同様のバックボーンを共有している。しかし、訓練サンプルが限られているため、コネクショニストの時間的分類損失はCSLRバックボーンを十分に訓練することができない。本研究では,CSLRバックボーンを強化するための3つの補助タスクを提案する。最初のタスクは、一貫性の観点から、不十分なトレーニング問題に敏感な視覚モジュールを強化する。具体的には、手話の情報は主に署名者の表情や手の動きに含まれているため、視覚モジュールに情報領域、すなわち空間的注意一貫性を集中させるキーポイント誘導空間注意モジュールが開発されている。第二に、視覚的およびシーケンシャルなモジュールの出力特徴が同じ文を表すことに気付き、バックボーンのパワーをよりよく活用するために、視覚的およびシーケンシャルなモジュール間の文埋め込み一貫性制約を課し、両方の特徴の表現力を高める。我々は、上記の補助タスクで訓練されたCSLRモデルを、整合性強化CSLRと呼び、すべてのシグナがトレーニングとテストの両方の間に現れるシグナ依存データセットでうまく機能する。さらに、シグナー非依存設定をより堅牢にするため、特徴異方性に基づくシグナー除去モジュールを提案し、シグナー情報をバックボーンから削除する。これらの補助作業の有効性を検証するために広範なアブレーション研究が行われている。さらに、トランスフォーマーベースのバックボーンにより、PHOENIX-2014、PHOENIX-2014-T、PHOENIX-2014-SI、CSL、CSL-Dailyの5つのベンチマークで、最先端または競合的なパフォーマンスを達成する。

関連論文リスト

SignRep: Enhancing Self-Supervised Sign Representations [30.008980708977095]
記号言語表現学習は、記号の複雑な時間的性質とラベル付きデータセットの不足により、ユニークな課題を提示する。我々は手話表現学習のためのスケーラブルで自己指導型のフレームワークを導入する。我々のモデルは、下流タスク中にキーポイントベースのモデルの制限を避けるため、推論中に骨格キーポイントを必要としない。これは手話辞書の検索や手話翻訳に優れており、検索における標準的なMAE事前学習や骨格に基づく表現を超越している。
論文参考訳（メタデータ） (2025-03-11T15:20:01Z)
Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [56.199779065855004]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。 CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文参考訳（メタデータ） (2024-10-30T17:51:31Z)
Continuous Sign Language Recognition Using Intra-inter Gloss Attention [0.0]
本研究では,手話認識研究において,インター・グロス・アテンション・モジュール(inter-inter gloss attention module)と呼ばれる新しいモジュールを導入する。グロス内注目モジュールでは、動画を等サイズのチャンクに分割し、各チャンク内に自己注意機構を適用する。 PHOENIX-2014ベンチマークデータセットの実験結果から,本手法が手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文参考訳（メタデータ） (2024-06-26T13:21:08Z)
Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining [0.6144680854063939]
音声認識のための最先端コンフォーマーモデルを連続手話認識に適用する。これは、視覚ベースのタスクにConformerを使用した最初の例である。教師なし事前訓練は、キュレートされた手話データセット上で行われる。
論文参考訳（メタデータ） (2024-05-20T13:40:52Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Improving Continuous Sign Language Recognition with Adapted Image Models [9.366498095041814]
大規模ヴィジュアル言語モデル(例えばCLIP)は、一連の下流タスクに対して顕著な一般化性能を示している。このような大きな視覚言語モデルを連続手話認識に適応させる際に高い効率性を実現するため、我々は新しい戦略(AdaptSign)を提案する。 AdaptSignは、既存の方法と比較して、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLなどのCSLRベンチマークで優れたパフォーマンスを示すことができる。
論文参考訳（メタデータ） (2024-04-12T03:43:37Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。 DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文参考訳（メタデータ） (2023-03-21T11:42:57Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文参考訳（メタデータ） (2020-02-08T15:38:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。