論文の概要: SignIT: A Comprehensive Dataset and Multimodal Analysis for Italian Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2512.14489v1
- Date: Tue, 16 Dec 2025 15:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.761616
- Title: SignIT: A Comprehensive Dataset and Multimodal Analysis for Italian Sign Language Recognition
- Title(参考訳): SignIT: イタリア語手話認識のための総合的データセットとマルチモーダル分析
- Authors: Alessia Micieli, Giovanni Maria Farinella, Francesco Ragusa,
- Abstract要約: データセットは3.33時間をカバーする644のビデオで構成されている。
94の異なる手話の分類を考慮に入れた動画を手動で注釈付けした。
また,ユーザの手,顔,体に関連する2Dキーポイントも抽出した。
- 参考スコア(独自算出の注目度): 13.593493129298553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present SignIT, a new dataset to study the task of Italian Sign Language (LIS) recognition. The dataset is composed of 644 videos covering 3.33 hours. We manually annotated videos considering a taxonomy of 94 distinct sign classes belonging to 5 macro-categories: Animals, Food, Colors, Emotions and Family. We also extracted 2D keypoints related to the hands, face and body of the users. With the dataset, we propose a benchmark for the sign recognition task, adopting several state-of-the-art models showing how temporal information, 2D keypoints and RGB frames can be influence the performance of these models. Results show the limitations of these models on this challenging LIS dataset. We release data and annotations at the following link: https://fpv-iplab.github.io/SignIT/.
- Abstract(参考訳): 本稿では,イタリア手話認識(LIS)の課題を研究するための新しいデータセットであるSignITを紹介する。
データセットは3.33時間をカバーする644のビデオで構成されている。
動物, 食, 色, 感情, 家族の5つのカテゴリーに属する94の異なるサインクラスの分類を手動で検討した。
また,ユーザの手,顔,体に関連する2Dキーポイントも抽出した。
このデータセットを用いて,手話認識タスクのベンチマークを提案し,時間的情報,2Dキーポイント,RGBフレームがこれらのモデルの性能にどのように影響するかを示す。
結果は、この挑戦的なLISデータセット上で、これらのモデルの制限を示す。
https://fpv-iplab.github.io/SignIT/.com/ というリンクでデータとアノテーションをリリースします。
関連論文リスト
- Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文 参考訳(メタデータ) (2025-05-15T16:31:49Z) - HandReader: Advanced Techniques for Efficient Fingerspelling Recognition [75.38606213726906]
本稿では,指先認識タスクに対処するために設計された3つのアーキテクチャ群であるHandReaderを紹介する。
HandReader$_RGB$は、様々な長さのビデオからRGBの機能を処理するために、Adaptive Shift-Temporal Module (TSAM) という小説を使っている。
HandReader$_KP$は、キーポイントをテンソルとして操作するTPE(Temporal Pose)上に構築されている。
各HandReaderモデルは、それぞれ異なるアドバンテージを持ち、ChicagoFSWildとChicagoFSWild+データセットの最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-15T13:18:37Z) - PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
画像と映像の理解において透過的な研究を行うために,完全オープンかつ再現可能なフレームワークで知覚モデル(PLM)を構築することを研究する。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
これらのギャップを埋めるために、我々は、挑戦的なビデオ理解タスクを評価するためのスイートであるPLM-VideoBenchをリリースした。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z) - AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods [6.320141734801679]
大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。
我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。
我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
論文 参考訳(メタデータ) (2020-08-03T15:12:05Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。