論文の概要: CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language
Recognition with Variational Alignment
- arxiv url: http://arxiv.org/abs/2303.05725v4
- Date: Wed, 12 Apr 2023 10:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 17:51:58.706734
- Title: CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language
Recognition with Variational Alignment
- Title(参考訳): cvt-slr:可変アライメントを用いた手話認識のためのコントラスト的視覚テキスト変換
- Authors: Jiangbin Zheng, Yile Wang, Cheng Tan, Siyuan Li, Ge Wang, Jun Xia,
Yidong Chen, Stan Z. Li
- Abstract要約: 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
視覚と言語の両方のモダリティの事前訓練された知識を十分に探求するために,SLR,-SLRのための新しいコントラッシブ・ビジュアル・トランスフォーメーションを提案する。
- 参考スコア(独自算出の注目度): 42.10603331311837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language recognition (SLR) is a weakly supervised task that annotates
sign videos as textual glosses. Recent studies show that insufficient training
caused by the lack of large-scale available sign datasets becomes the main
bottleneck for SLR. Most SLR works thereby adopt pretrained visual modules and
develop two mainstream solutions. The multi-stream architectures extend
multi-cue visual features, yielding the current SOTA performances but requiring
complex designs and might introduce potential noise. Alternatively, the
advanced single-cue SLR frameworks using explicit cross-modal alignment between
visual and textual modalities are simple and effective, potentially competitive
with the multi-cue framework. In this work, we propose a novel contrastive
visual-textual transformation for SLR, CVT-SLR, to fully explore the pretrained
knowledge of both the visual and language modalities. Based on the single-cue
cross-modal alignment framework, we propose a variational autoencoder (VAE) for
pretrained contextual knowledge while introducing the complete pretrained
language module. The VAE implicitly aligns visual and textual modalities while
benefiting from pretrained contextual knowledge as the traditional contextual
module. Meanwhile, a contrastive cross-modal alignment algorithm is designed to
explicitly enhance the consistency constraints. Extensive experiments on public
datasets (PHOENIX-2014 and PHOENIX-2014T) demonstrate that our proposed CVT-SLR
consistently outperforms existing single-cue methods and even outperforms SOTA
multi-cue methods.
- Abstract(参考訳): 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
ほとんどのslrは事前訓練されたビジュアルモジュールを採用し、2つのメインストリームソリューションを開発する。
マルチストリームアーキテクチャはマルチキューの視覚的特徴を拡張し、現在のSOTA性能を得るが、複雑な設計を必要とし、潜在的なノイズをもたらす可能性がある。
あるいは、視覚とテキスト間の明示的なクロスモーダルアライメントを用いた先進的なシングルキューslrフレームワークはシンプルで効果的であり、マルチキューフレームワークと競合する可能性がある。
本研究では,SLR(CVT-SLR)に対して,視覚的・言語的モダリティの事前知識を十分に探求するための,新しいコントラッシブ・テキスト変換を提案する。
単一キューのクロスモーダルアライメントフレームワークをベースとして,事前学習した文脈知識に対して,完全な事前学習言語モジュールを導入しながら可変オートエンコーダ(VAE)を提案する。
VAEは、従来のコンテキストモジュールとしての事前訓練されたコンテキスト知識の恩恵を受けながら、視覚的およびテキスト的モダリティを暗黙的に調整する。
一方、整合性制約を明確に拡張するために、対照的なクロスモーダルアライメントアルゴリズムが設計されている。
公開データセット(PHOENIX-2014およびPHOENIX-2014T)の大規模な実験により,提案したCVT-SLRは既存の単一キュー法より一貫して優れ,SOTAマルチキュー法よりも優れていた。
関連論文リスト
- SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。