論文の概要: Event Stream based Sign Language Translation: A High-Definition Benchmark Dataset and A New Algorithm
- arxiv url: http://arxiv.org/abs/2408.10488v1
- Date: Tue, 20 Aug 2024 02:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:34:22.938338
- Title: Event Stream based Sign Language Translation: A High-Definition Benchmark Dataset and A New Algorithm
- Title(参考訳): イベントストリームに基づく手話翻訳:高精細ベンチマークデータセットと新しいアルゴリズム
- Authors: Xiao Wang, Yao Rong, Fuling Wang, Jianing Li, Lin Zhu, Bo Jiang, Yaowei Wang,
- Abstract要約: 本稿では,手話翻訳における高精細イベントストリームの利用を提案する。
イベントストリームは高ダイナミックレンジと高密度の時間信号を持ち、照度が低く、動きがぼやけやすい。
本稿では,CNNの特徴の時間的情報を統合するMambaモデルの能力を完全に活用する新しいベースライン手法を提案する。
- 参考スコア(独自算出の注目度): 46.002495818680934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Language Translation (SLT) is a core task in the field of AI-assisted disability. Unlike traditional SLT based on visible light videos, which is easily affected by factors such as lighting, rapid hand movements, and privacy breaches, this paper proposes the use of high-definition Event streams for SLT, effectively mitigating the aforementioned issues. This is primarily because Event streams have a high dynamic range and dense temporal signals, which can withstand low illumination and motion blur well. Additionally, due to their sparsity in space, they effectively protect the privacy of the target person. More specifically, we propose a new high-resolution Event stream sign language dataset, termed Event-CSL, which effectively fills the data gap in this area of research. It contains 14,827 videos, 14,821 glosses, and 2,544 Chinese words in the text vocabulary. These samples are collected in a variety of indoor and outdoor scenes, encompassing multiple angles, light intensities, and camera movements. We have benchmarked existing mainstream SLT works to enable fair comparison for future efforts. Based on this dataset and several other large-scale datasets, we propose a novel baseline method that fully leverages the Mamba model's ability to integrate temporal information of CNN features, resulting in improved sign language translation outcomes. Both the benchmark dataset and source code will be released on https://github.com/Event-AHU/OpenESL
- Abstract(参考訳): 手話翻訳(SLT)は、AI支援障害の分野における中核的なタスクである。
可視光ビデオに基づく従来のSLTとは違い,照明や手の動き,プライバシー侵害などの要因が容易に影響を受ける。
これは主に、イベントストリームが高ダイナミックレンジと高密度の時間信号を持ち、照度が低く、動きがぼやけやすいためである。
また、空間が広いため、ターゲットのプライバシーを効果的に保護する。
具体的には、この領域におけるデータギャップを効果的に埋める、Event-CSLと呼ばれる、新しい高解像度のEventストリーム手話データセットを提案する。
ビデオ14,827本、グロス14,821本、漢文2,544語を含む。
これらのサンプルは、複数の角度、光強度、カメラの動きを含む様々な屋内および屋外のシーンで収集される。
我々は、今後の取り組みに対して公正な比較を可能にするため、既存のSLTワークをベンチマークした。
このデータセットと他の大規模データセットに基づいて,マンバモデルがCNN特徴の時間情報を統合する能力を完全に活用する新たなベースライン手法を提案し,その結果,手話翻訳結果が改善された。
ベンチマークデータセットとソースコードは、https://github.com/Event-AHU/OpenESLでリリースされる。
関連論文リスト
- EvLight++: Low-Light Video Enhancement with an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More [7.974102031202597]
EvLight++は、現実のシナリオで堅牢なパフォーマンスのために設計された、イベント誘導型低照度ビデオ拡張アプローチである。
EvLight++は1.37dBと3.71dBの2つのイメージベースとビデオベースの両方で大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-08-29T04:30:31Z) - An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs [7.630967411418269]
グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。
本稿では手話に固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調する。
本稿では,空間と運動に基づく手話翻訳(SpaMo)について紹介する。
論文 参考訳(メタデータ) (2024-08-20T07:10:40Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - HARDVS: Revisiting Human Activity Recognition with Dynamic Vision
Sensors [40.949347728083474]
人間の活動認識(HAR)アルゴリズムの主なストリームは、照明、高速な動き、プライバシー保護、大規模なエネルギー消費に苦しむRGBカメラに基づいて開発されている。
一方、生物学的にインスパイアされたイベントカメラは、高いダイナミックレンジ、密集した時空間分解能、低レイテンシ、低電力などの特徴により、大きな関心を集めている。
新たに発生するセンサであるため、HAR用の現実的な大規模データセットも存在しない。
我々は300のカテゴリと100万以上のイベントシーケンスを含む大規模ベンチマークデータセットHARDVSを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:48:50Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。