論文の概要: Skeleton-based sign language recognition using a dual-stream spatio-temporal dynamic graph convolutional network
- arxiv url: http://arxiv.org/abs/2509.08661v1
- Date: Wed, 10 Sep 2025 14:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.465839
- Title: Skeleton-based sign language recognition using a dual-stream spatio-temporal dynamic graph convolutional network
- Title(参考訳): デュアルストリーム時空間動的グラフ畳み込みネットワークを用いた骨格型手話認識
- Authors: Liangjin Liu, Haoyang Zheng, Pei Zhou,
- Abstract要約: 本稿では、幾何学モデルとジェスチャーモデルを分離した2重参照2重ストリームアーキテクチャであるDual-SignLanguageNetを紹介する。
DSLNetは、挑戦的なWLASL-100、WLASL-300、LSA64データセットでそれぞれ93.70%、89.97%、99.79%の精度を達成した。
- 参考スコア(独自算出の注目度): 5.596414636063365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Isolated Sign Language Recognition (ISLR) is challenged by gestures that are morphologically similar yet semantically distinct, a problem rooted in the complex interplay between hand shape and motion trajectory. Existing methods, often relying on a single reference frame, struggle to resolve this geometric ambiguity. This paper introduces Dual-SignLanguageNet (DSLNet), a dual-reference, dual-stream architecture that decouples and models gesture morphology and trajectory in separate, complementary coordinate systems. Our approach utilizes a wrist-centric frame for view-invariant shape analysis and a facial-centric frame for context-aware trajectory modeling. These streams are processed by specialized networks-a topology-aware graph convolution for shape and a Finsler geometry-based encoder for trajectory-and are integrated via a geometry-driven optimal transport fusion mechanism. DSLNet sets a new state-of-the-art, achieving 93.70%, 89.97% and 99.79% accuracy on the challenging WLASL-100, WLASL-300 and LSA64 datasets, respectively, with significantly fewer parameters than competing models.
- Abstract(参考訳): 分離手話認識(ISLR)は、手形と運動軌跡の複雑な相互作用に根ざした、形態的に類似しているが意味的に異なるジェスチャーによって挑戦される。
既存の手法は、しばしば単一の参照フレームに依存し、幾何学的曖昧さを解決するのに苦労する。
本稿では,2重参照型デュアルストリームアーキテクチャであるDual-SignLanguageNet(DSLNet)について述べる。
本手法では、ビュー不変形状解析のための手首中心のフレームと、コンテキスト認識軌道モデリングのための顔中心のフレームを用いる。
これらのストリームは、形状のトポロジ対応グラフ畳み込みと、軌道のフィンスラー幾何学に基づくエンコーダによって処理され、幾何学駆動の最適輸送融合機構を介して統合される。
DSLNetは、挑戦的なWLASL-100、WLASL-300、LSA64データセットに対して、93.70%、89.97%、99.79%の精度を達成し、競合するモデルよりもパラメータが大幅に少ない、新しい最先端技術を設定している。
関連論文リスト
- DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:38Z) - A Geometry-Aware Message Passing Neural Network for Modeling Aerodynamics over Airfoils [61.60175086194333]
空気力学は航空宇宙工学の重要な問題であり、しばしば翼のような固体物と相互作用する流れを伴う。
本稿では, 固体物体上の非圧縮性流れのモデル化について考察する。
ジオメトリを効果的に組み込むため,メッシュ表現に翼形状を効率よく,かつ効率的に統合するメッセージパッシング方式を提案する。
これらの設計選択は、純粋にデータ駆動の機械学習フレームワークであるGeoMPNNにつながり、NeurIPS 2024 ML4CFDコンペティションで最優秀学生賞を受賞し、総合で4位となった。
論文 参考訳(メタデータ) (2024-12-12T16:05:39Z) - Learning Cross-view Geo-localization Embeddings via Dynamic Weighted
Decorrelation Regularization [52.493240055559916]
クロスビュージオローカライゼーションは、ドローンプラットフォームと衛星プラットフォームという2つのプラットフォームから撮影された同じ位置の画像を見つけることを目的としている。
既存の手法は、通常、特徴空間内の他のものとの埋め込み距離を最適化することに焦点を当てる。
本稿では、低冗長性も重要であり、モデルがより多様なパターンをマイニングする動機となっていると論じる。
論文 参考訳(メタデータ) (2022-11-10T02:13:10Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。