論文の概要: Self-Supervised Video Transformers for Isolated Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2309.02450v1
- Date: Sat, 2 Sep 2023 03:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 18:20:30.605273
- Title: Self-Supervised Video Transformers for Isolated Sign Language
Recognition
- Title(参考訳): 孤立手話認識のための自己監督型ビデオ変換器
- Authors: Marcelo Sandoval-Castaneda, Yanhong Li, Diane Brentari, Karen Livescu,
Gregory Shakhnarovich
- Abstract要約: 最近導入された4つのトランスフォーマーベースのビデオからの自己教師型学習アプローチと4つの事前学習データレギュレーションについて検討する。
MaskFeatは、ポーズベースおよび教師付きビデオモデルよりもパフォーマンスが優れており、GlossベースのWLASL2000では、トップ1の精度は79.02%である。
- 参考スコア(独自算出の注目度): 19.72944125318495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an in-depth analysis of various self-supervision methods
for isolated sign language recognition (ISLR). We consider four recently
introduced transformer-based approaches to self-supervised learning from
videos, and four pre-training data regimes, and study all the combinations on
the WLASL2000 dataset. Our findings reveal that MaskFeat achieves performance
superior to pose-based and supervised video models, with a top-1 accuracy of
79.02% on gloss-based WLASL2000. Furthermore, we analyze these models' ability
to produce representations of ASL signs using linear probing on diverse
phonological features. This study underscores the value of architecture and
pre-training task choices in ISLR. Specifically, our results on WLASL2000
highlight the power of masked reconstruction pre-training, and our linear
probing results demonstrate the importance of hierarchical vision transformers
for sign language representation.
- Abstract(参考訳): 本稿では,孤立手話認識(ISLR)のための様々な自己超越手法を詳細に分析する。
最近導入された4つのトランスフォーマーベースのビデオからの自己教師型学習アプローチと4つの事前学習データレジームについて検討し、WLASL2000データセット上ですべての組み合わせについて検討する。
以上の結果から,maskfeatはポーズベースおよび教師付きビデオモデルよりも性能が優れており,光沢ベースwlasl2000では,トップ1の精度79.02%であった。
さらに,種々の音韻的特徴に基づく線形探索を用いて,これらのモデルがASL符号の表現を生成する能力を解析した。
本研究は,ISLRにおけるアーキテクチャと事前学習タスクの選択の価値を裏付けるものである。
具体的には,WLASL2000において,マスク付き再構成事前学習のパワーを強調し,線形探索の結果から手話表現における階層型視覚変換器の重要性が示された。
関連論文リスト
- Comparing Discrete and Continuous Space LLMs for Speech Recognition [46.70297458685438]
本稿では,Large Language Model(LLM)に基づく音声認識(ASR)における離散的かつ連続的な音声表現について検討する。
入力フィードバックと自己回帰フィードバックに基づいてLLMを連続空間モデルと離散空間モデルに分類する。
本稿では,HuBERTエンコーダを用いて,LibriSpeech上で1.69%の最先端ワード誤り率(WER)をオープンソースで達成する。
論文 参考訳(メタデータ) (2024-09-01T18:29:45Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - A Quantitative Approach to Understand Self-Supervised Models as
Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。
我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文 参考訳(メタデータ) (2023-11-27T15:58:28Z) - Improving Speech Inversion Through Self-Supervised Embeddings and Enhanced Tract Variables [2.048226951354646]
自己教師付き学習(SSL)モデルを用いて得られた音声表現を利用することによる影響について検討する。
また, 改良された幾何学的変換モデルを用いて, 新規なトラクション変数(TV)の組み入れについて検討した。
本研究は、SSLモデルによるリッチな特徴表現の深い影響と、SIシステムの強化機能に対するターゲットテレビによる幾何学的変換の改善を裏付けるものである。
論文 参考訳(メタデータ) (2023-09-17T09:18:04Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Remote Sensing Scene Classification with Masked Image Modeling (MIM) [0.0]
自己教師付き学習(SSL)技術は、視覚的特徴表現を学習するためのより良い方法として示されている。
本研究の目的は、4つのよく知られた分類データセットにおけるMIM事前学習バックボーンの可能性を探ることである。
論文 参考訳(メタデータ) (2023-02-28T02:27:36Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。