論文の概要: The NGT200 Dataset: Geometric Multi-View Isolated Sign Recognition
- arxiv url: http://arxiv.org/abs/2409.15284v1
- Date: Tue, 3 Sep 2024 13:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:16:59.211436
- Title: The NGT200 Dataset: Geometric Multi-View Isolated Sign Recognition
- Title(参考訳): NGT200データセット:Geometric Multi-View Isolated Sign Recognition
- Authors: Oline Ranum, David R. Wessels, Gomer Otterspeer, Erik J. Bekkers, Floris Roelofsen, Jari I. Andersen,
- Abstract要約: この研究は、MVISR(Multi-view isolated sign recognition)に対処する。
我々は、MV-ISRをシングルビューISR(SV-ISR)とは異なるものとして確立する、新しいマルチビューベンチマークを導入する。
我々は,手話に固有の空間対称性に対して,合成データの提案と条件付き手話表現の利点を示す。
- 参考スコア(独自算出の注目度): 7.669240209509035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Processing (SLP) provides a foundation for a more inclusive future in language technology; however, the field faces several significant challenges that must be addressed to achieve practical, real-world applications. This work addresses multi-view isolated sign recognition (MV-ISR), and highlights the essential role of 3D awareness and geometry in SLP systems. We introduce the NGT200 dataset, a novel spatio-temporal multi-view benchmark, establishing MV-ISR as distinct from single-view ISR (SV-ISR). We demonstrate the benefits of synthetic data and propose conditioning sign representations on spatial symmetries inherent in sign language. Leveraging an SE(2) equivariant model improves MV-ISR performance by 8%-22% over the baseline.
- Abstract(参考訳): 手話処理(SLP)は、言語技術におけるより包括的な未来の基礎を提供するが、現実の実用的なアプリケーションを実現するために対処しなければならないいくつかの重要な課題に直面している。
本研究は多視点孤立手話認識(MV-ISR)に対処し,SLPシステムにおける3D認識と幾何学の重要性を強調した。
我々は,新しい時空間マルチビューベンチマークであるNGT200データセットを導入し,MV-ISRを単視点ISR(SV-ISR)とは異なるものとして確立した。
合成データの利点を実証し,手話固有の空間対称性の条件付き手話表現を提案する。
SE(2)同変モデルの活用により、MV-ISRの性能はベースライン上で8%-22%向上する。
関連論文リスト
- Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model [0.5825410941577593]
画像列から抽出した手関節骨格を考慮した空間的時間的注意に基づくBSL認識モデルを提案する。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
論文 参考訳(メタデータ) (2024-08-26T08:55:16Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Server-side Rescoring of Spoken Entity-centric Knowledge Queries for
Virtual Assistants [5.996525771249284]
本研究では,音声情報ドメインクエリのサーバ側再構成のためのモデリング手法を実証研究する。
様々なエンティティ中心のクエリサブポピュレーションにおいて、WERは23%-35%の大幅な改善を示した。
また、スクラッチから訓練した複数のサーバサイドLMのモデル融合は、各モデルの相補的な強度を最も効果的に組み合わせていることを示す。
論文 参考訳(メタデータ) (2023-11-02T17:07:23Z) - SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving [87.8761593366609]
SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
論文 参考訳(メタデータ) (2023-06-15T09:56:33Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Self-Supervised Learning for Invariant Representations from
Multi-Spectral and SAR Images [5.994412766684843]
自己監視学習(SSL)は、いくつかのドメイン分類とセグメンテーションタスクにおいて、新しい最先端技術となっている。
本研究は, リモートセンシング(RS)領域に蒸留ネットワーク(BYOL)を適用したRSDnetを提案する。
論文 参考訳(メタデータ) (2022-05-04T13:16:48Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。