論文の概要: LSTC-MDA: A Unified Framework for Long-Short Term Temporal Convolution and Mixed Data Augmentation in Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2509.14619v1
- Date: Thu, 18 Sep 2025 04:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.068209
- Title: LSTC-MDA: A Unified Framework for Long-Short Term Temporal Convolution and Mixed Data Augmentation in Skeleton-Based Action Recognition
- Title(参考訳): LSTC-MDA:骨格に基づく行動認識における長期的時間的畳み込みと混合データ拡張のための統一フレームワーク
- Authors: Feng Ding, Haisheng Fu, Soroush Oraki, Jie Liang,
- Abstract要約: ラベル付きトレーニングサンプルの不足と、短距離および長距離の時間的依存関係をモデル化することの難しさだ。
本稿では、時間的モデリングとデータの多様性を同時に改善する統合フレームワークLSTC-MDAを提案する。
- 参考スコア(独自算出の注目度): 7.635000381728172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based action recognition faces two longstanding challenges: the scarcity of labeled training samples and difficulty modeling short- and long-range temporal dependencies. To address these issues, we propose a unified framework, LSTC-MDA, which simultaneously improves temporal modeling and data diversity. We introduce a novel Long-Short Term Temporal Convolution (LSTC) module with parallel short- and long-term branches, these two feature branches are then aligned and fused adaptively using learned similarity weights to preserve critical long-range cues lost by conventional stride-2 temporal convolutions. We also extend Joint Mixing Data Augmentation (JMDA) with an Additive Mixup at the input level, diversifying training samples and restricting mixup operations to the same camera view to avoid distribution shifts. Ablation studies confirm each component contributes. LSTC-MDA achieves state-of-the-art results: 94.1% and 97.5% on NTU 60 (X-Sub and X-View), 90.4% and 92.0% on NTU 120 (X-Sub and X-Set),97.2% on NW-UCLA. Code: https://github.com/xiaobaoxia/LSTC-MDA.
- Abstract(参考訳): ラベル付きトレーニングサンプルの不足と、短距離および長距離の時間的依存関係をモデル化することの難しさだ。
これらの課題に対処するために、時間的モデリングとデータの多様性を同時に改善する統合フレームワークLSTC-MDAを提案する。
従来のストライド2の時間的畳み込みによって失われた重要な長範囲の手がかりを保存するために,これら2つの特徴分枝は,学習した類似度重みを用いて整列し,適応的に融合する。
また、JMDA(Joint Mixing Data Augmentation)を入力レベルで加算ミックスアップに拡張し、トレーニングサンプルを多様化し、ミキシング操作を同じカメラビューに制限し、分散シフトを回避する。
アブレーション研究は各成分が寄与することを確認した。
LSTC-MDAは、NTU 60(X-SubとX-View)では94.1%と97.5%、NTU 120(X-SubとX-Set)では90.4%と92.0%、NW-UCLAでは97.2%である。
コード:https://github.com/xiaobaoxia/LSTC-MDA。
関連論文リスト
- DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [14.176801586961286]
時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。
マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。
EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。
TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文 参考訳(メタデータ) (2025-08-03T13:11:52Z) - dCMF: Learning interpretable evolving patterns from temporal multiway data [0.7285444492473742]
我々は, LDS, Coupled Matrix Factorizations (CMF) とPARAFAC2モデルの関係を探索することにより, テンソル分解と動的モデリングのギャップを埋める。
そこで本稿では, 遅延因子の時間的変化を制約し, 特定のLSD構造に固執する, d(ynamical)CMFと呼ばれる時間的結合因子分解モデルを提案する。
論文 参考訳(メタデータ) (2025-02-26T18:04:01Z) - Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
本稿では,時系列予測のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。