論文の概要: A Chinese Continuous Sign Language Dataset Based on Complex Environments
- arxiv url: http://arxiv.org/abs/2409.11960v1
- Date: Wed, 18 Sep 2024 13:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:36:39.597752
- Title: A Chinese Continuous Sign Language Dataset Based on Complex Environments
- Title(参考訳): 複雑環境に基づく中国語連続手話データセット
- Authors: Qidan Zhu, Jing Li, Fei Yuan, Jiaojiao Fan, Quan Gan,
- Abstract要約: 複雑な環境に基づく中国語連続手話(CSL)のための大規模データセットを構築した。
このデータセットは、日常生活シーンから収集された5,988の連続CSLビデオクリップを含んでいる。
連続手話認識のための時間周波数ネットワーク(TFNet)モデルを提案する。
- 参考スコア(独自算出の注目度): 17.195286118443256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current bottleneck in continuous sign language recognition (CSLR) research lies in the fact that most publicly available datasets are limited to laboratory environments or television program recordings, resulting in a single background environment with uniform lighting, which significantly deviates from the diversity and complexity found in real-life scenarios. To address this challenge, we have constructed a new, large-scale dataset for Chinese continuous sign language (CSL) based on complex environments, termed the complex environment - chinese sign language dataset (CE-CSL). This dataset encompasses 5,988 continuous CSL video clips collected from daily life scenes, featuring more than 70 different complex backgrounds to ensure representativeness and generalization capability. To tackle the impact of complex backgrounds on CSLR performance, we propose a time-frequency network (TFNet) model for continuous sign language recognition. This model extracts frame-level features and then utilizes both temporal and spectral information to separately derive sequence features before fusion, aiming to achieve efficient and accurate CSLR. Experimental results demonstrate that our approach achieves significant performance improvements on the CE-CSL, validating its effectiveness under complex background conditions. Additionally, our proposed method has also yielded highly competitive results when applied to three publicly available CSL datasets.
- Abstract(参考訳): 連続手話認識(CSLR)研究の現在のボトルネックは、ほとんどの公開データセットが実験室環境やテレビ番組の録画に限られているという事実にある。
この課題に対処するため、複雑な環境をベースとした中国語連続手話データセット(CSL)を新たに構築し、中国手話データセット(CE-CSL)と呼ぶ。
このデータセットは、日常生活シーンから収集された5,988の連続CSLビデオクリップを含み、代表性と一般化能力を確保するために70以上の複雑な背景を特徴としている。
複雑な背景がCSLRの性能に与える影響を解決するために,連続手話認識のための時間周波数ネットワーク(TFNet)モデルを提案する。
本モデルは,フレームレベルの特徴を抽出し,時間情報とスペクトル情報の両方を用いて,融合前のシーケンス特徴を分離し,効率的かつ正確なCSLRを実現する。
実験により,CE-CSLの性能改善が図られ,複雑な背景条件下での有効性が検証された。
さらに,提案手法は3つの公開CSLデータセットに適用した場合,高い競争力が得られる。
関連論文リスト
- SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model [0.5825410941577593]
画像列から抽出した手関節骨格を考慮した空間的時間的注意に基づくBSL認識モデルを提案する。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
論文 参考訳(メタデータ) (2024-08-26T08:55:16Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [25.182666420286132]
自然に発生するCLSリソースの希少さを考えると、データセットの大部分は翻訳に頼らざるを得ない。
これにより、コードスイッチングのインスタンスを含む有機的辞書をキャプチャする自然発生のCLSペアを観測する能力を制限することができます。
我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (2023-03-07T17:52:51Z) - Signing Outside the Studio: Benchmarking Background Robustness for
Continuous Sign Language Recognition [79.23777980180755]
本稿では,既存の連続手話認識ベンチマークを用いて,ベンチマークデータセットを自動的に生成するパイプラインを提案する。
新たに構築したベンチマークデータセットは,実環境をシミュレートする多様なシーンで構成されている。
そこで本研究では,(1)背景ランダム化と(2)CSLRモデルの特徴的乱れを含む,シンプルで効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-01T13:27:44Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。