論文の概要: CLIP-SLA: Parameter-Efficient CLIP Adaptation for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2504.01666v1
- Date: Wed, 02 Apr 2025 12:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:21.969337
- Title: CLIP-SLA: Parameter-Efficient CLIP Adaptation for Continuous Sign Language Recognition
- Title(参考訳): CLIP-SLA:連続手話認識のためのパラメータ効率の良いCLIP適応
- Authors: Sarah Alyami, Hamzah Luqman,
- Abstract要約: 連続手話認識(CSLR)は、ビデオ中の手話ジェスチャーのシーケンスを解釈し、翻訳することに焦点を当てている。
CLIPモデルから学習済みの強力なビジュアルエンコーダを利用して手話課題に対処する新しいCSLRフレームワークであるCLIP手話適応(CLIP-SLA)を提案する。
CLIPビジュアルエンコーダにPEFTモジュールを統合するSLA-AdapterとSLA-LoRAの2つのバリエーションを導入し、最小限のトレーニング可能なパラメータで微調整を可能にする。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License:
- Abstract: Continuous sign language recognition (CSLR) focuses on interpreting and transcribing sequences of sign language gestures in videos. In this work, we propose CLIP sign language adaptation (CLIP-SLA), a novel CSLR framework that leverages the powerful pre-trained visual encoder from the CLIP model to sign language tasks through parameter-efficient fine-tuning (PEFT). We introduce two variants, SLA-Adapter and SLA-LoRA, which integrate PEFT modules into the CLIP visual encoder, enabling fine-tuning with minimal trainable parameters. The effectiveness of the proposed frameworks is validated on four datasets: Phoenix2014, Phoenix2014-T, CSL-Daily, and Isharah-500, where both CLIP-SLA variants outperformed several SOTA models with fewer trainable parameters. Extensive ablation studies emphasize the effectiveness and flexibility of the proposed methods with different vision-language models for CSLR. These findings showcase the potential of adapting large-scale pre-trained models for scalable and efficient CSLR, which pave the way for future advancements in sign language understanding.
- Abstract(参考訳): 連続手話認識(CSLR)は、ビデオ中の手話ジェスチャーのシーケンスを解釈し、翻訳することに焦点を当てている。
本稿では,CLIPモデルから学習済みの強力なビジュアルエンコーダを利用して,パラメータ効率の良い微調整(PEFT)によって言語タスクに署名する新しいCSLRフレームワークであるCLIP手話適応(CLIP-SLA)を提案する。
CLIPビジュアルエンコーダにPEFTモジュールを統合するSLA-AdapterとSLA-LoRAの2つのバリエーションを導入し、最小限のトレーニング可能なパラメータで微調整を可能にする。
提案されたフレームワークの有効性は、Phoenix2014、Phoenix2014-T、CSL-Daily、Isharah-500の4つのデータセットで検証されている。
広範囲にわたるアブレーション研究は、CSLRの異なる視覚言語モデルを用いた提案手法の有効性と柔軟性を強調している。
これらの結果は,手話理解における将来的な進歩の道筋をたどる,スケーラブルで効率的なCSLRに,大規模事前学習モデルを適用する可能性を示している。
関連論文リスト
- Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - Improving Continuous Sign Language Recognition with Adapted Image Models [9.366498095041814]
大規模ヴィジュアル言語モデル(例えばCLIP)は、一連の下流タスクに対して顕著な一般化性能を示している。
このような大きな視覚言語モデルを連続手話認識に適応させる際に高い効率性を実現するため、我々は新しい戦略(AdaptSign)を提案する。
AdaptSignは、既存の方法と比較して、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLなどのCSLRベンチマークで優れたパフォーマンスを示すことができる。
論文 参考訳(メタデータ) (2024-04-12T03:43:37Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。