論文の概要: Fine-Tuning Video Transformers for Word-Level Bangla Sign Language: A Comparative Analysis for Classification Tasks
- arxiv url: http://arxiv.org/abs/2506.04367v1
- Date: Wed, 04 Jun 2025 18:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.377722
- Title: Fine-Tuning Video Transformers for Word-Level Bangla Sign Language: A Comparative Analysis for Classification Tasks
- Title(参考訳): 単語レベルバングラ手話のための微調整ビデオ変換器:分類課題の比較分析
- Authors: Jubayer Ahmed Bhuiyan Shawon, Hasan Mahmud, Kamrul Hasan,
- Abstract要約: 手話認識には、画像やビデオから手話の自動識別と分類が含まれる。
バングラデシュでは、バングラ手話は聴覚障害を持つ多くの人々のコミュニケーションの主要な手段である。
そこで本研究では,小規模BdSLデータセット上での最先端のビデオトランスフォーマーアーキテクチャについて述べる。
- 参考スコア(独自算出の注目度): 1.633119622546771
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign Language Recognition (SLR) involves the automatic identification and classification of sign gestures from images or video, converting them into text or speech to improve accessibility for the hearing-impaired community. In Bangladesh, Bangla Sign Language (BdSL) serves as the primary mode of communication for many individuals with hearing impairments. This study fine-tunes state-of-the-art video transformer architectures -- VideoMAE, ViViT, and TimeSformer -- on BdSLW60 (arXiv:2402.08635), a small-scale BdSL dataset with 60 frequent signs. We standardized the videos to 30 FPS, resulting in 9,307 user trial clips. To evaluate scalability and robustness, the models were also fine-tuned on BdSLW401 (arXiv:2503.02360), a large-scale dataset with 401 sign classes. Additionally, we benchmark performance against public datasets, including LSA64 and WLASL. Data augmentation techniques such as random cropping, horizontal flipping, and short-side scaling were applied to improve model robustness. To ensure balanced evaluation across folds during model selection, we employed 10-fold stratified cross-validation on the training set, while signer-independent evaluation was carried out using held-out test data from unseen users U4 and U8. Results show that video transformer models significantly outperform traditional machine learning and deep learning approaches. Performance is influenced by factors such as dataset size, video quality, frame distribution, frame rate, and model architecture. Among the models, the VideoMAE variant (MCG-NJU/videomae-base-finetuned-kinetics) achieved the highest accuracies of 95.5% on the frame rate corrected BdSLW60 dataset and 81.04% on the front-facing signs of BdSLW401 -- demonstrating strong potential for scalable and accurate BdSL recognition.
- Abstract(参考訳): 手話認識(SLR)は、画像やビデオから手話の自動識別と分類を行い、それをテキストや音声に変換し、聴覚障害者コミュニティのアクセシビリティを向上させる。
バングラデシュでは、バングラ手話(BdSL)が聴覚障害を持つ多くの人々のコミュニケーションの主要な手段となっている。
BdSLW60 (arXiv:2402.08635)上の、60の頻繁なサインを持つ小規模のBdSLデータセット上で、最先端のビデオトランスフォーマーアーキテクチャ -- VideoMAE、ViViT、TimeSformer -- を微調整する。
ビデオは30FPSに標準化され、9,307のユーザートライアルクリップが作られました。
スケーラビリティと堅牢性を評価するため、モデルは401の符号クラスを持つ大規模データセットであるBdSLW401 (arXiv:2503.02360) にも微調整された。
さらに、LSA64やWLASLなど、公開データセットに対してパフォーマンスをベンチマークする。
モデルロバスト性を改善するため, ランダムトリミング, 水平フリップ, ショートサイドスケーリングなどのデータ拡張手法を適用した。
モデル選択時の折りたたみ評価のバランスを確保するため,トレーニングセットに10倍の層状クロスバリデーションを適用し,未確認ユーザU4,U8の保持テストデータを用いてシグナー非依存評価を行った。
その結果、ビデオトランスフォーマーモデルは従来の機械学習とディープラーニングのアプローチを大きく上回っていることがわかった。
パフォーマンスはデータセットのサイズ、ビデオ品質、フレーム分布、フレームレート、モデルアーキテクチャなどの影響を受けている。
モデルのうち、ビデオMAEの派生型(MCG-NJU/ Videomae-base-finetuned-kinetics)はフレームレートの補正されたBdSLW60データセットで95.5%、BdSLW401の前面の標識で81.04%の精度を達成し、スケーラブルで正確なBdSL認識の強い可能性を示した。
関連論文リスト
- LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale [35.58838734226919]
本研究では,ASR単語とビデオフレームをタイムスタンプに応じて密にインターリーブする新たなストリーミングトレーニング手法を提案する。
ASRを用いた視覚言語表現における従来の研究と比較して,本手法はASRのストリーミング特性に自然に適合する。
実験の結果,LiveCC-7B-Instructモデルは,リアルタイムモードでも高度な72Bモデルを上回るコメント品質が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-22T16:52:09Z) - DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos [4.452513686760606]
マルチモーダル大言語モデル(MLLM)の内部連鎖(CoT)を利用したビデオから音声を生成するフレームワークを提案する。
対応するマルチモーダル推論データセットを構築し、音声生成における初期推論の学習を容易にする。
実験では,提案手法が生成した音声の不一致(発声)の低減に有効であることを示す。
論文 参考訳(メタデータ) (2025-03-28T07:56:19Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - SignSpeak: Open-Source Time Series Classification for ASL Translation [0.12499537119440243]
本稿では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。
このデータセットを、LSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、最高のモデルが92%の精度を達成した。
当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確かつ効率的なASLトランスレータを提供する。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - BdSLW60: A Word-Level Bangla Sign Language Dataset [3.8631510994883254]
我々は、制約のない自然な設定で、BdSLW60という名前の包括的BdSLワードレベルデータセットを作成します。
データセットには60のBangla手話が含まれており、18人の手話専門家が手話専門家の監督の下で提供した9307のビデオトライアルがかなりの規模で提供されている。
本稿では,SVM(Support Vector Machine)を用いたBdSLW60データセットのベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2024-02-13T18:02:58Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods [6.320141734801679]
大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。
我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。
我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
論文 参考訳(メタデータ) (2020-08-03T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。