論文の概要: Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms
- arxiv url: http://arxiv.org/abs/2503.06484v1
- Date: Sun, 09 Mar 2025 06:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:26.872485
- Title: Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms
- Title(参考訳): フレームとイベントストリームを用いた手話翻訳:ベンチマークデータセットとアルゴリズム
- Authors: Xiao Wang, Yuehang Li, Fuling Wang, Bo Jiang, Yaowei Wang, Yonghong Tian, Jin Tang, Bin Luo,
- Abstract要約: 現在の手話翻訳アルゴリズムは主にRGBフレームに依存しており、これは固定フレームレート、可変照明条件、手の動きによる動きのぼけによって制限される。
以上の課題に対処するため,イベントストリームを活用して,RGBカメラによるジェスチャーデータのキャプチャを支援することを提案する。
具体的には,15,676個のRGB-Eventサンプルと15,191個のグルースと2,568個の漢字を含むDVS346カメラを用いて,大規模なRGB-Event手話翻訳データセットを収集する。
- 参考スコア(独自算出の注目度): 58.60058450730943
- License:
- Abstract: Accurate sign language understanding serves as a crucial communication channel for individuals with disabilities. Current sign language translation algorithms predominantly rely on RGB frames, which may be limited by fixed frame rates, variable lighting conditions, and motion blur caused by rapid hand movements. Inspired by the recent successful application of event cameras in other fields, we propose to leverage event streams to assist RGB cameras in capturing gesture data, addressing the various challenges mentioned above. Specifically, we first collect a large-scale RGB-Event sign language translation dataset using the DVS346 camera, termed VECSL, which contains 15,676 RGB-Event samples, 15,191 glosses, and covers 2,568 Chinese characters. These samples were gathered across a diverse range of indoor and outdoor environments, capturing multiple viewing angles, varying light intensities, and different camera motions. Due to the absence of benchmark algorithms for comparison in this new task, we retrained and evaluated multiple state-of-the-art SLT algorithms, and believe that this benchmark can effectively support subsequent related research. Additionally, we propose a novel RGB-Event sign language translation framework (i.e., M$^2$-SLT) that incorporates fine-grained micro-sign and coarse-grained macro-sign retrieval, achieving state-of-the-art results on the proposed dataset. Both the source code and dataset will be released on https://github.com/Event-AHU/OpenESL.
- Abstract(参考訳): 正確な手話理解は、障害者にとって重要なコミュニケーションチャネルとなっている。
現在の手話翻訳アルゴリズムは主にRGBフレームに依存しており、これは固定フレームレート、可変照明条件、手の動きによる動きのぼけによって制限される。
近年のイベントカメラの他の分野への応用に触発されて,RGBカメラがジェスチャーデータをキャプチャするのを支援するために,イベントストリームを活用することを提案する。
具体的には、まずDVS346カメラを用いて大規模なRGB-Event手話翻訳データセットを収集し、VECSLと呼ばれる15,676のRGB-Eventサンプル、15,191のグルースと2,568の漢字を含む。
これらのサンプルは、様々な屋内環境と屋外環境に集められ、複数の視角、様々な光強度、様々なカメラの動きを捉えた。
このタスクではベンチマークアルゴリズムが存在しないため、複数の最先端SLTアルゴリズムを再訓練し、評価し、このベンチマークはその後の研究を効果的に支援できると考えている。
さらに,細粒度マイクロサインと粗粒度マクロサイン検索を組み込んだ新しいRGBイベント手話翻訳フレームワーク(M$^2$-SLT)を提案する。
ソースコードとデータセットはhttps://github.com/Event-AHU/OpenESLでリリースされる。
関連論文リスト
- EventSTR: A Benchmark Dataset and Baselines for Event Stream based Scene Text Recognition [39.12227212510573]
シーンテキスト認識アルゴリズムは、低照度、動きのぼかし、散らかった背景などの難易度に敏感なRGBカメラに基づいて開発されている。
本研究では,バイオインスパイアされたイベントカメラを用いて,大規模なベンチマークデータセットであるEventSTRを収集・注釈することで,シーンテキストを認識することを提案する。
また,SimC-ESTRと呼ばれるイベントベースのシーンテキスト認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-13T07:16:16Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - Event Stream based Sign Language Translation: A High-Definition Benchmark Dataset and A New Algorithm [46.002495818680934]
本稿では,手話翻訳における高精細イベントストリームの利用を提案する。
イベントストリームは高ダイナミックレンジと高密度の時間信号を持ち、照度が低く、動きがぼやけやすい。
本稿では,CNNの特徴の時間的情報を統合するMambaモデルの能力を完全に活用する新しいベースライン手法を提案する。
論文 参考訳(メタデータ) (2024-08-20T02:01:30Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Bimodal SegNet: Instance Segmentation Fusing Events and RGB Frames for
Robotic Grasping [4.191965713559235]
本稿では,イベントベースデータとRGBフレームデータという2種類の視覚信号を融合したディープラーニングネットワークを提案する。
Bimodal SegNetネットワークには、2つの異なるエンコーダがある。
評価結果から,コンバウンドと画素精度の平均交叉点において,最先端手法よりも6~10%向上したことが示された。
論文 参考訳(メタデータ) (2023-03-20T16:09:25Z) - How Many Events do You Need? Event-based Visual Place Recognition Using
Sparse But Varying Pixels [29.6328152991222]
イベントカメラ研究の潜在的な応用の1つは、ロボットのローカライゼーションのための視覚的位置認識である。
事象フレームに蓄積した画素位置における事象数に絶対的な差があることが、位置認識タスクに十分であることを示す。
我々は,Brisbane-Event-VPRデータセットに対する提案手法を,新たに提案した屋内QCR-Event-VPRデータセットとともに屋外運転シナリオで評価した。
論文 参考訳(メタデータ) (2022-06-28T00:24:12Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。