論文の概要: Improving Continuous Sign Language Recognition with Adapted Image Models
- arxiv url: http://arxiv.org/abs/2404.08226v1
- Date: Fri, 12 Apr 2024 03:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:55:31.150469
- Title: Improving Continuous Sign Language Recognition with Adapted Image Models
- Title(参考訳): 適応画像モデルによる連続手話認識の改善
- Authors: Lianyu Hu, Tongkai Shi, Liqing Gao, Zekang Liu, Wei Feng,
- Abstract要約: 大規模ヴィジュアル言語モデル(例えばCLIP)は、一連の下流タスクに対して顕著な一般化性能を示している。
このような大きな視覚言語モデルを連続手話認識に適応させる際に高い効率性を実現するため、我々は新しい戦略(AdaptSign)を提案する。
AdaptSignは、既存の方法と比較して、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLなどのCSLRベンチマークで優れたパフォーマンスを示すことができる。
- 参考スコア(独自算出の注目度): 9.366498095041814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increase of web-scale weakly labelled image-text pairs have greatly facilitated the development of large-scale vision-language models (e.g., CLIP), which have shown impressive generalization performance over a series of downstream tasks. However, the massive model size and scarcity of available data limit their applications to fine-tune the whole model in downstream tasks. Besides, fully fine-tuning the model easily forgets the generic essential knowledge acquired in the pretraining stage and overfits the downstream data. To enable high efficiency when adapting these large vision-language models (e.g., CLIP) to performing continuous sign language recognition (CSLR) while preserving their generalizability, we propose a novel strategy (AdaptSign). Especially, CLIP is adopted as the visual backbone to extract frame-wise features whose parameters are fixed, and a set of learnable modules are introduced to model spatial sign variations or capture temporal sign movements. The introduced additional modules are quite lightweight, only owning 3.2% extra computations with high efficiency. The generic knowledge acquired in the pretraining stage is well-preserved in the frozen CLIP backbone in this process. Extensive experiments show that despite being efficient, AdaptSign is able to demonstrate superior performance across a series of CSLR benchmarks including PHOENIX14, PHOENIX14-T, CSL-Daily and CSL compared to existing methods. Visualizations show that AdaptSign could learn to dynamically pay major attention to the informative spatial regions and cross-frame trajectories in sign videos.
- Abstract(参考訳): ウェブスケールの弱ラベル付き画像テキストペアの増大は、大規模な視覚言語モデル(例えばCLIP)の開発を大いに促進し、一連の下流タスクにおいて顕著な一般化性能を示した。
しかし、利用可能なデータの巨大なモデルサイズと不足は、ダウンストリームタスクでモデル全体を微調整するアプリケーションを制限する。
さらに、モデルを完全に微調整することで、事前学習段階で得られた一般的な本質的な知識を忘れやすくなり、下流データに過度に適合する。
このような大きな視覚言語モデル(例えばCLIP)を、一般化性を維持しつつCSLR(Continuous sign Language Recognition)の実行に適用する上で、高い効率性を実現するために、新しい戦略(AdaptSign)を提案する。
特に、パラメータが固定されたフレームワイズ特徴を抽出する視覚バックボーンとしてCLIPを採用し、空間記号の変動をモデル化したり、時間記号の動きをキャプチャするために学習可能なモジュールセットを導入する。
追加モジュールは非常に軽量で、高い効率で3.2%の余分な計算しか持たない。
プレトレーニング段階で得られた一般的な知識は、この過程で凍結したCLIPのバックボーンによく保存されている。
大規模な実験によると、AdaptSignは効率が良いにもかかわらず、既存の手法と比較して、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLなどのCSLRベンチマークで優れた性能を示すことができる。
可視化によって、AdaptSignは、手話ビデオにおける情報的空間領域やクロスフレームの軌跡に動的に注意を払うことができる。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Towards Online Continuous Sign Language Recognition and Translation [37.23962699105158]
連続手話認識の研究は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋めるのに不可欠である。
我々は、手話辞書を開発し、その辞書上で孤立手話認識モデルを訓練し、入力手話シーケンスにスライディングウインドウアプローチを用いる。
我々のオンライン認識モデルは、グロス・トゥ・テキスト・ネットワークを統合することで、オンライン翻訳をサポートするように拡張することができる。
論文 参考訳(メタデータ) (2024-01-10T18:59:53Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Improving Continuous Sign Language Recognition with Consistency
Constraints and Signer Removal [24.537234147678113]
CSLRバックボーンを強化するために,3つの補助タスクを提案する。
視覚モジュールを強制するために、キーポイント誘導空間アテンションモジュールを開発する。
視覚モジュールとシーケンシャルモジュールの間には、文埋め込み一貫性制約が課される。
本モデルでは,5つのベンチマークで最先端または競争性能を実現する。
論文 参考訳(メタデータ) (2022-12-26T06:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。