論文の概要: OLMD: Orientation-aware Long-term Motion Decoupling for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2503.08205v1
- Date: Tue, 11 Mar 2025 09:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:54.820276
- Title: OLMD: Orientation-aware Long-term Motion Decoupling for Continuous Sign Language Recognition
- Title(参考訳): OLMD:連続手話認識のための指向性を考慮した長期動作デカップリング
- Authors: Yiheng Yu, Sheng Liu, Yuan Feng, Min Xu, Zhelun Jin, Xuhua Yang,
- Abstract要約: 連続手話認識における主要な課題に対処するために,オブジェクト指向を意識した長期運動デカップリング(OLMD)を提案する。
OLMDは、長期動作を効率よく集約し、多方向信号を容易に解釈可能なコンポーネントに分解する。
結果:OLMDは,PHOENIX14,PHOENIX14-T,CSL-Dailyの3つの大規模データセット上でのSOTA性能を示した。
- 参考スコア(独自算出の注目度): 12.887780173675845
- License:
- Abstract: The primary challenge in continuous sign language recognition (CSLR) mainly stems from the presence of multi-orientational and long-term motions. However, current research overlooks these crucial aspects, significantly impacting accuracy. To tackle these issues, we propose a novel CSLR framework: Orientation-aware Long-term Motion Decoupling (OLMD), which efficiently aggregates long-term motions and decouples multi-orientational signals into easily interpretable components. Specifically, our innovative Long-term Motion Aggregation (LMA) module filters out static redundancy while adaptively capturing abundant features of long-term motions. We further enhance orientation awareness by decoupling complex movements into horizontal and vertical components, allowing for motion purification in both orientations. Additionally, two coupling mechanisms are proposed: stage and cross-stage coupling, which together enrich multi-scale features and improve the generalization capabilities of the model. Experimentally, OLMD shows SOTA performance on three large-scale datasets: PHOENIX14, PHOENIX14-T, and CSL-Daily. Notably, we improved the word error rate (WER) on PHOENIX14 by an absolute 1.6% compared to the previous SOTA
- Abstract(参考訳): 連続手話認識(CSLR)における主な課題は、主に多方向動作と長期動作の存在に由来する。
しかし、現在の研究はこれらの重要な側面を見落としており、精度に大きな影響を与えている。
これらの課題に対処するために,オブジェクト指向対応長期運動デカップリング (OLMD) という新しいCSLRフレームワークを提案する。
具体的には、我々の革新的な長期運動集約(LMA)モジュールは、長期動作の豊富な特徴を適応的に捉えながら、静的冗長性をフィルタリングする。
複雑な動きを水平成分と垂直成分に分離することで、方向認識をさらに強化し、両方向の運動浄化を可能にする。
さらに, 段差結合と段差カップリングという2つの結合機構が提案されている。
実験的に、OLMDは3つの大規模データセット(PHOENIX14、PHOENIX14-T、CSL-Daily)でSOTA性能を示す。
特に,PHOENIX14における単語誤り率(WER)を,従来のSOTAと比較して絶対1.6%改善した。
関連論文リスト
- iMoT: Inertial Motion Transformer for Inertial Navigation [0.5199807441687141]
iMoTは、革新的なトランスフォーマーベースの慣性オドメトリー法である。
正確な位置推定のために、運動と回転のモードからクロスモーダル情報を取得する。
iMoTは軌道再構成において、より優れたロバスト性と精度を実現するため、最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-13T22:52:47Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。
既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。
本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文 参考訳(メタデータ) (2024-03-31T17:18:57Z) - MotionTrack: Learning Robust Short-term and Long-term Motions for
Multi-Object Tracking [56.92165669843006]
本研究では,短時間から長期間の軌跡を関連づける統合フレームワークで,堅牢な短期・長期動作を学習するMotionTrackを提案する。
密集した群集に対して,各ターゲットの複雑な動きを推定できる,短時間の軌跡から相互作用認識動作を学習するための新しい対話モジュールを設計する。
極端なオクルージョンのために、ターゲットの履歴軌跡から信頼できる長期動作を学習するための新しいRefind Moduleを構築し、中断された軌跡とそれに対応する検出とを関連付けることができる。
論文 参考訳(メタデータ) (2023-03-18T12:38:33Z) - Behavior Recognition Based on the Integration of Multigranular Motion
Features [17.052997301790693]
マルチグラニュラ(IMG)運動特徴の統合に基づく新しい行動認識手法を提案する。
我々は,HMDB51,Something,UCF101など,いくつかの行動認識ベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T02:05:26Z) - Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文 参考訳(メタデータ) (2021-06-30T02:54:13Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。