Fugu-MT 論文翻訳(概要): The NGT200 Dataset: Geometric Multi-View Isolated Sign Recognition

論文の概要: The NGT200 Dataset: Geometric Multi-View Isolated Sign Recognition

arxiv url: http://arxiv.org/abs/2409.15284v1
Date: Tue, 3 Sep 2024 13:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 20:16:59.211436
Title: The NGT200 Dataset: Geometric Multi-View Isolated Sign Recognition
Title（参考訳）: NGT200データセット:Geometric Multi-View Isolated Sign Recognition
Authors: Oline Ranum, David R. Wessels, Gomer Otterspeer, Erik J. Bekkers, Floris Roelofsen, Jari I. Andersen,
Abstract要約: この研究は、MVISR(Multi-view isolated sign recognition)に対処する。我々は、MV-ISRをシングルビューISR(SV-ISR)とは異なるものとして確立する、新しいマルチビューベンチマークを導入する。我々は,手話に固有の空間対称性に対して,合成データの提案と条件付き手話表現の利点を示す。
参考スコア（独自算出の注目度）: 7.669240209509035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sign Language Processing (SLP) provides a foundation for a more inclusive future in language technology; however, the field faces several significant challenges that must be addressed to achieve practical, real-world applications. This work addresses multi-view isolated sign recognition (MV-ISR), and highlights the essential role of 3D awareness and geometry in SLP systems. We introduce the NGT200 dataset, a novel spatio-temporal multi-view benchmark, establishing MV-ISR as distinct from single-view ISR (SV-ISR). We demonstrate the benefits of synthetic data and propose conditioning sign representations on spatial symmetries inherent in sign language. Leveraging an SE(2) equivariant model improves MV-ISR performance by 8%-22% over the baseline.
Abstract（参考訳）: 手話処理(SLP)は、言語技術におけるより包括的な未来の基礎を提供するが、現実の実用的なアプリケーションを実現するために対処しなければならないいくつかの重要な課題に直面している。本研究は多視点孤立手話認識(MV-ISR)に対処し,SLPシステムにおける3D認識と幾何学の重要性を強調した。我々は,新しい時空間マルチビューベンチマークであるNGT200データセットを導入し,MV-ISRを単視点ISR(SV-ISR)とは異なるものとして確立した。合成データの利点を実証し,手話固有の空間対称性の条件付き手話表現を提案する。 SE(2)同変モデルの活用により、MV-ISRの性能はベースライン上で8%-22%向上する。

関連論文リスト

Dual-view Spatio-Temporal Feature Fusion with CNN-Transformer Hybrid Network for Chinese Isolated Sign Language Recognition [7.212104558068557]
本稿では,NationalCSL-DPという手話認識のための2視点手話データセットを提案する。データセットは、2つの垂直ビューに対して10人の署名者が記録した134140のサインビデオで構成されている。また、CNNトランスフォーマーネットワークは強力なベースラインであり、予測のための極めて単純だが効果的な融合戦略として提案されている。
論文参考訳（メタデータ） (2025-06-08T02:04:29Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark [1.858700200692012]
MMS-VPRは、歩行者のみの複雑な環境でストリートレベルの場所認識のための大規模なマルチモーダルデータセットである。データセットは78,575枚の注釈付き画像と2,512本のビデオクリップからなり、中国・成都にある70,800ドルの屋外商業地区で207箇所で撮影された。
論文参考訳（メタデータ） (2025-05-18T06:21:13Z)
Generative Sign-description Prompts with Multi-positive Contrastive Learning for Sign Language Recognition [9.044039469025009]
本稿では,GSP-MC法を提案する。 GSP-MC法はまた、二重エンコーダアーキテクチャを用いて、階層的なスケルトン特徴と複数のテキスト記述を双方向にアライメントする。実験では、中国のSLR500(97.1%)とトルコのAUTSLデータセット(97.07%の精度)の既存の手法に対する最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2025-05-05T00:57:57Z)
Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model [0.5825410941577593]
画像列から抽出した手関節骨格を考慮した空間的時間的注意に基づくBSL認識モデルを提案する。本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
論文参考訳（メタデータ） (2024-08-26T08:55:16Z)
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文参考訳（メタデータ） (2024-08-05T04:51:46Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants [5.996525771249284]
本研究では,音声情報ドメインクエリのサーバ側再構成のためのモデリング手法を実証研究する。様々なエンティティ中心のクエリサブポピュレーションにおいて、WERは23%-35%の大幅な改善を示した。また、スクラッチから訓練した複数のサーバサイドLMのモデル融合は、各モデルの相補的な強度を最も効果的に組み合わせていることを示す。
論文参考訳（メタデータ） (2023-11-02T17:07:23Z)
SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving [87.8761593366609]
SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
論文参考訳（メタデータ） (2023-06-15T09:56:33Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Self-Supervised Learning for Invariant Representations from Multi-Spectral and SAR Images [5.994412766684843]
自己監視学習(SSL)は、いくつかのドメイン分類とセグメンテーションタスクにおいて、新しい最先端技術となっている。本研究は, リモートセンシング(RS)領域に蒸留ネットワーク(BYOL)を適用したRSDnetを提案する。
論文参考訳（メタデータ） (2022-05-04T13:16:48Z)
Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。 C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文参考訳（メタデータ） (2021-09-02T09:10:39Z)
Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文参考訳（メタデータ） (2021-05-06T16:44:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。