論文の概要: CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language
Recognition with Variational Alignment
- arxiv url: http://arxiv.org/abs/2303.05725v2
- Date: Tue, 21 Mar 2023 13:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 22:58:08.404355
- Title: CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language
Recognition with Variational Alignment
- Title(参考訳): cvt-slr:可変アライメントを用いた手話認識のためのコントラスト的視覚テキスト変換
- Authors: Jiangbin Zheng, Yile Wang, Cheng Tan, Siyuan Li, Ge Wang, Jun Xia,
Yidong Chen, Stan Z. Li
- Abstract要約: 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈を付ける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
本稿では,SLR,PHO-SLRに対して,視覚的・言語的モダリティの事前知識を十分に探求するために,新しいコントラッシブ・ビジュアル・テクスチャ変換を提案する。
- 参考スコア(独自算出の注目度): 42.10603331311837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language recognition (SLR) is a weakly supervised task that annotates
sign videos as textual glosses. Recent studies show that insufficient training
caused by the lack of large-scale available sign language datasets becomes the
main bottleneck for SLR. The majority of SLR works thereby adopt pretrained
visual modules and develop two mainstream solutions. The multi-stream
architectures extend multi-cue visual features, yielding the current SOTA
performances but requiring complex designs and might introduce potential noise.
Alternatively, the advanced single-cue SLR frameworks using explicit
cross-modal alignment between visual and textual modalities are simple and
effective, potentially competitive with the multi-cue framework. In this work,
we propose a novel contrastive visual-textual transformation for SLR, CVT-SLR,
to fully explore the pretrained knowledge of both the visual and language
modalities. Based on the single-cue cross-modal alignment framework, we propose
a variational autoencoder (VAE) for pretrained contextual knowledge while
introducing the complete pretrained language module. The VAE implicitly aligns
visual and textual modalities while benefiting from pretrained contextual
knowledge as the traditional contextual module. Meanwhile, a contrastive
cross-modal alignment algorithm is proposed to further enhance the explicit
consistency constraints. Extensive experiments conducted on the two most
popular public datasets, PHOENIX-2014 and PHOENIX-2014T, demonstrate that our
proposed SLR framework not only consistently outperforms existing single-cue
methods but even outperforms SOTA multi-cue methods.
- Abstract(参考訳): 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
SLRの作業の大部分は、事前訓練された視覚モジュールを採用し、2つの主要なソリューションを開発する。
マルチストリームアーキテクチャはマルチキューの視覚的特徴を拡張し、現在のSOTA性能を得るが、複雑な設計を必要とし、潜在的なノイズをもたらす可能性がある。
あるいは、視覚とテキスト間の明示的なクロスモーダルアライメントを用いた先進的なシングルキューslrフレームワークはシンプルで効果的であり、マルチキューフレームワークと競合する可能性がある。
本研究では,SLR(CVT-SLR)に対して,視覚的・言語的モダリティの事前知識を十分に探求するための,新しいコントラッシブ・テキスト変換を提案する。
単一キューのクロスモーダルアライメントフレームワークをベースとして,事前学習した文脈知識に対して,完全な事前学習言語モジュールを導入しながら可変オートエンコーダ(VAE)を提案する。
VAEは、従来のコンテキストモジュールとしての事前訓練されたコンテキスト知識の恩恵を受けながら、視覚的およびテキスト的モダリティを暗黙的に調整する。
一方, 明示的な一貫性制約をさらに高めるために, 対照的なクロスモーダルアライメントアルゴリズムが提案されている。
PHOENIX-2014とPHOENIX-2014Tという2つの一般的な公開データセットで実施された大規模な実験により、提案するSLRフレームワークが既存の単一キュー法よりも一貫して優れているだけでなく、SOTAマルチキュー法よりも優れていることが実証された。
関連論文リスト
- Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension [21.500920290909843]
本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。
具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。
我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-18T09:44:25Z) - Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。