論文の概要: RoCoISLR: A Romanian Corpus for Isolated Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2511.12767v1
- Date: Sun, 16 Nov 2025 20:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.528848
- Title: RoCoISLR: A Romanian Corpus for Isolated Sign Language Recognition
- Title(参考訳): RoCoISLR: 手話認識のためのルーマニア語コーパス
- Authors: Cătălin-Alexandru Rîpanu, Andrei-Theodor Hotnog, Giulia-Stefania Imbrea, Dumitru-Clementin Cercel,
- Abstract要約: ルーマニア語分離手話認識のための新しいコーパス(RoI SLR)を提案する。
RoCoI SLRは9000以上のビデオサンプルで構成され、複数のソースから6000近い標準化されたグルースにまたがっている。
I3D, SlowFast, Swin Transformer, TimeSformer, Uniformer, VideoMAE, PoseConv3D-under- Under consistent experimental sets。
- 参考スコア(独自算出の注目度): 1.5878775690975724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic sign language recognition plays a crucial role in bridging the communication gap between deaf communities and hearing individuals; however, most available datasets focus on American Sign Language. For Romanian Isolated Sign Language Recognition (RoISLR), no large-scale, standardized dataset exists, which limits research progress. In this work, we introduce a new corpus for RoISLR, named RoCoISLR, comprising over 9,000 video samples that span nearly 6,000 standardized glosses from multiple sources. We establish benchmark results by evaluating seven state-of-the-art video recognition models-I3D, SlowFast, Swin Transformer, TimeSformer, Uniformer, VideoMAE, and PoseConv3D-under consistent experimental setups, and compare their performance with that of the widely used WLASL2000 corpus. According to the results, transformer-based architectures outperform convolutional baselines; Swin Transformer achieved a Top-1 accuracy of 34.1%. Our benchmarks highlight the challenges associated with long-tail class distributions in low-resource sign languages, and RoCoISLR provides the initial foundation for systematic RoISLR research.
- Abstract(参考訳): 自動手話認識は、難聴者コミュニティと聴取者のコミュニケーションギャップを埋める上で重要な役割を担っているが、ほとんどのデータセットはアメリカの手話に焦点を当てている。
ルーマニアの孤立手話認識(RoISLR)では、大規模で標準化されたデータセットは存在せず、研究の進展を制限している。
本稿では,RoISLRの新しいコーパスであるRoCoISLRを紹介し,複数のソースから6000近い標準化グルースにまたがる9000以上のビデオサンプルについて紹介する。
I3D, SlowFast, Swin Transformer, TimeSformer, Uniformer, VideoMAE, PoseConv3D--- Under consistent experiments の7つの最先端ビデオ認識モデルの評価を行い, それらの性能を広く使用されているWLASL2000コーパスと比較した。
結果によると、トランスフォーマーベースのアーキテクチャは畳み込みベースラインよりも優れており、Swin TransformerはTop-1の精度が34.1%に達した。
我々のベンチマークでは,低リソース手話言語における長期クラス分布に関する課題が強調され,RoCoISLRが体系的なRoISLR研究の基盤となっている。
関連論文リスト
- Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs [47.944645462877894]
Referring Expression (REC) は、自然言語の記述に基づいてオブジェクトを画像にローカライズするモデルを必要とする。
この研究は2つの主要な貢献を通じて多言語RECに対処する。
10言語にまたがる統合多言語データセットを構築し、機械翻訳と文脈に基づく翻訳拡張により、既存の12のRECベンチマークを体系的に拡張する。
得られたデータセットは、177,620の画像にまたがる800万の多言語参照表現と、336,882の注釈付きオブジェクトで構成されている。
論文 参考訳(メタデータ) (2025-11-14T15:54:34Z) - SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work [87.9341538630949]
第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
論文 参考訳(メタデータ) (2025-08-09T11:57:33Z) - Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文 参考訳(メタデータ) (2025-05-15T16:31:49Z) - ISLR101: an Iranian Word-Level Sign Language Recognition Dataset [0.0]
ISLR101は、孤立した手話認識のための最初のイラン手話データセットである。
このデータセットには、101の異なるサインをカバーする4,614の動画が含まれ、異なる背景に対して10の署名者が記録し、解像度は800×600ピクセル、フレームレートは毎秒25フレームである。
論文 参考訳(メタデータ) (2025-03-16T10:57:01Z) - Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies [6.403291706982091]
独立した手話認識は、スケーラブルな言語技術にとって不可欠である。
言語をまたいで一般化し,語彙を進化させるワンショット学習手法を提案する。
我々は、異なる言語から10,235のユニークな記号を含む大きな辞書上で50.8%のワンショットMRRを含む最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-27T15:07:51Z) - SpokeN-100: A Cross-Lingual Benchmarking Dataset for The Classification of Spoken Numbers in Different Languages [0.0]
ベンチマークは、コンパクトなディープラーニングモデルの性能を評価し、向上する上で重要な役割を果たす。
本研究では,音声認識に適した全く人工的なベンチマークデータセットを提案する。
SpokeN-100は、0から99までの話者数で構成され、4つの異なる言語で32の話者によって話される。
論文 参考訳(メタデータ) (2024-03-14T12:07:37Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。