論文の概要: Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms
- arxiv url: http://arxiv.org/abs/2503.06484v1
- Date: Sun, 09 Mar 2025 06:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.422922
- Title: Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms
- Title(参考訳): フレームとイベントストリームを用いた手話翻訳:ベンチマークデータセットとアルゴリズム
- Authors: Xiao Wang, Yuehang Li, Fuling Wang, Bo Jiang, Yaowei Wang, Yonghong Tian, Jin Tang, Bin Luo,
- Abstract要約: 現在の手話翻訳アルゴリズムは主にRGBフレームに依存しており、これは固定フレームレート、可変照明条件、手の動きによる動きのぼけによって制限される。
以上の課題に対処するため,イベントストリームを活用して,RGBカメラによるジェスチャーデータのキャプチャを支援することを提案する。
具体的には,15,676個のRGB-Eventサンプルと15,191個のグルースと2,568個の漢字を含むDVS346カメラを用いて,大規模なRGB-Event手話翻訳データセットを収集する。
- 参考スコア(独自算出の注目度): 58.60058450730943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate sign language understanding serves as a crucial communication channel for individuals with disabilities. Current sign language translation algorithms predominantly rely on RGB frames, which may be limited by fixed frame rates, variable lighting conditions, and motion blur caused by rapid hand movements. Inspired by the recent successful application of event cameras in other fields, we propose to leverage event streams to assist RGB cameras in capturing gesture data, addressing the various challenges mentioned above. Specifically, we first collect a large-scale RGB-Event sign language translation dataset using the DVS346 camera, termed VECSL, which contains 15,676 RGB-Event samples, 15,191 glosses, and covers 2,568 Chinese characters. These samples were gathered across a diverse range of indoor and outdoor environments, capturing multiple viewing angles, varying light intensities, and different camera motions. Due to the absence of benchmark algorithms for comparison in this new task, we retrained and evaluated multiple state-of-the-art SLT algorithms, and believe that this benchmark can effectively support subsequent related research. Additionally, we propose a novel RGB-Event sign language translation framework (i.e., M$^2$-SLT) that incorporates fine-grained micro-sign and coarse-grained macro-sign retrieval, achieving state-of-the-art results on the proposed dataset. Both the source code and dataset will be released on https://github.com/Event-AHU/OpenESL.
- Abstract(参考訳): 正確な手話理解は、障害者にとって重要なコミュニケーションチャネルとなっている。
現在の手話翻訳アルゴリズムは主にRGBフレームに依存しており、これは固定フレームレート、可変照明条件、手の動きによる動きのぼけによって制限される。
近年のイベントカメラの他の分野への応用に触発されて,RGBカメラがジェスチャーデータをキャプチャするのを支援するために,イベントストリームを活用することを提案する。
具体的には、まずDVS346カメラを用いて大規模なRGB-Event手話翻訳データセットを収集し、VECSLと呼ばれる15,676のRGB-Eventサンプル、15,191のグルースと2,568の漢字を含む。
これらのサンプルは、様々な屋内環境と屋外環境に集められ、複数の視角、様々な光強度、様々なカメラの動きを捉えた。
このタスクではベンチマークアルゴリズムが存在しないため、複数の最先端SLTアルゴリズムを再訓練し、評価し、このベンチマークはその後の研究を効果的に支援できると考えている。
さらに,細粒度マイクロサインと粗粒度マクロサイン検索を組み込んだ新しいRGBイベント手話翻訳フレームワーク(M$^2$-SLT)を提案する。
ソースコードとデータセットはhttps://github.com/Event-AHU/OpenESLでリリースされる。
関連論文リスト
- E-VLC: A Real-World Dataset for Event-based Visible Light Communication And Localization [4.269675382023856]
イベントカメラはLED信号のデコードやLEDマーカーの位置に対するカメラへのデコードに使用することができる。
さまざまな現実世界の設定でデコードとローカライゼーションをベンチマークする公開データセットは存在しない。
ハードウェアトリガと正確に同期した、イベントカメラ、フレームカメラ、グラウンドトルースポーズからなる、最初のパブリックデータセットを提示する。
論文 参考訳(メタデータ) (2025-04-25T17:43:20Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - EventSTR: A Benchmark Dataset and Baselines for Event Stream based Scene Text Recognition [39.12227212510573]
シーンテキスト認識アルゴリズムは、低照度、動きのぼかし、散らかった背景などの難易度に敏感なRGBカメラに基づいて開発されている。
本研究では,バイオインスパイアされたイベントカメラを用いて,大規模なベンチマークデータセットであるEventSTRを収集・注釈することで,シーンテキストを認識することを提案する。
また,SimC-ESTRと呼ばれるイベントベースのシーンテキスト認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-13T07:16:16Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - Event Stream based Sign Language Translation: A High-Definition Benchmark Dataset and A New Algorithm [46.002495818680934]
本稿では,手話翻訳における高精細イベントストリームの利用を提案する。
イベントストリームは高ダイナミックレンジと高密度の時間信号を持ち、照度が低く、動きがぼやけやすい。
本稿では,CNNの特徴の時間的情報を統合するMambaモデルの能力を完全に活用する新しいベースライン手法を提案する。
論文 参考訳(メタデータ) (2024-08-20T02:01:30Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition [42.118434116034194]
本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案する。
RGB-Eventベースの分類データセットが不足しているため、大規模なPokerEventデータセットも提案する。
論文 参考訳(メタデータ) (2023-08-08T16:15:35Z) - Bimodal SegNet: Instance Segmentation Fusing Events and RGB Frames for
Robotic Grasping [4.191965713559235]
本稿では,イベントベースデータとRGBフレームデータという2種類の視覚信号を融合したディープラーニングネットワークを提案する。
Bimodal SegNetネットワークには、2つの異なるエンコーダがある。
評価結果から,コンバウンドと画素精度の平均交叉点において,最先端手法よりも6~10%向上したことが示された。
論文 参考訳(メタデータ) (2023-03-20T16:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。