論文の概要: The NGT200 Dataset: Geometric Multi-View Isolated Sign Recognition
- arxiv url: http://arxiv.org/abs/2409.15284v1
- Date: Tue, 03 Sep 2024 13:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-30 06:31:57.403748
- Title: The NGT200 Dataset: Geometric Multi-View Isolated Sign Recognition
- Title(参考訳): NGT200データセット:Geometric Multi-View Isolated Sign Recognition
- Authors: Oline Ranum, David R. Wessels, Gomer Otterspeer, Erik J. Bekkers, Floris Roelofsen, Jari I. Andersen,
- Abstract要約: この研究は、MVISR(Multi-view isolated sign recognition)に対処する。
我々は、MV-ISRをシングルビューISR(SV-ISR)とは異なるものとして確立する、新しいマルチビューベンチマークを導入する。
我々は,手話に固有の空間対称性に対して,合成データの提案と条件付き手話表現の利点を示す。
- 参考スコア(独自算出の注目度): 7.669240209509035
- License:
- Abstract: Sign Language Processing (SLP) provides a foundation for a more inclusive future in language technology; however, the field faces several significant challenges that must be addressed to achieve practical, real-world applications. This work addresses multi-view isolated sign recognition (MV-ISR), and highlights the essential role of 3D awareness and geometry in SLP systems. We introduce the NGT200 dataset, a novel spatio-temporal multi-view benchmark, establishing MV-ISR as distinct from single-view ISR (SV-ISR). We demonstrate the benefits of synthetic data and propose conditioning sign representations on spatial symmetries inherent in sign language. Leveraging an SE(2) equivariant model improves MV-ISR performance by 8%-22% over the baseline.
- Abstract(参考訳): 手話処理(SLP)は、言語技術におけるより包括的な未来の基礎を提供するが、現実の実用的なアプリケーションを実現するために対処しなければならないいくつかの重要な課題に直面している。
本研究は多視点孤立手話認識(MV-ISR)に対処し,SLPシステムにおける3D認識と幾何学の重要性を強調した。
我々は,新しい時空間マルチビューベンチマークであるNGT200データセットを導入し,MV-ISRを単視点ISR(SV-ISR)とは異なるものとして確立した。
合成データの利点を実証し,手話固有の空間対称性の条件付き手話表現を提案する。
SE(2)同変モデルの活用により、MV-ISRの性能はベースライン上で8%-22%向上する。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Server-side Rescoring of Spoken Entity-centric Knowledge Queries for
Virtual Assistants [5.996525771249284]
本研究では,音声情報ドメインクエリのサーバ側再構成のためのモデリング手法を実証研究する。
様々なエンティティ中心のクエリサブポピュレーションにおいて、WERは23%-35%の大幅な改善を示した。
また、スクラッチから訓練した複数のサーバサイドLMのモデル融合は、各モデルの相補的な強度を最も効果的に組み合わせていることを示す。
論文 参考訳(メタデータ) (2023-11-02T17:07:23Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Self-Supervised Learning for Invariant Representations from
Multi-Spectral and SAR Images [5.994412766684843]
自己監視学習(SSL)は、いくつかのドメイン分類とセグメンテーションタスクにおいて、新しい最先端技術となっている。
本研究は, リモートセンシング(RS)領域に蒸留ネットワーク(BYOL)を適用したRSDnetを提案する。
論文 参考訳(メタデータ) (2022-05-04T13:16:48Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Multimodal Remote Sensing Benchmark Datasets for Land Cover
Classification with A Shared and Specific Feature Learning Model [36.993630058695345]
マルチモーダルRSデータをモダリティ共有およびモダリティ固有成分に分解するための共有特徴学習(S2FL)モデルを提案する。
マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちHouston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic Aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, digital surface model (DSM) dataがリリースされ、土地被覆分類に使用される。
論文 参考訳(メタデータ) (2021-05-21T08:14:21Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。