論文の概要: SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios
- arxiv url: http://arxiv.org/abs/2505.18048v1
- Date: Fri, 23 May 2025 15:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.207917
- Title: SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios
- Title(参考訳): シュカルデグ:劣化シナリオにおける骨格的人間の行動認識のベンチマーク
- Authors: Simon Malzard, Nitish Mital, Richard Walters, Victoria Nockles, Raghuveer Rao, Celso M. De Melo,
- Abstract要約: 骨格的人間行動認識(SHAR)は、多くのCVパイプラインにおいて、リアルタイムおよびエッジで動作する。
これはSkeletal Human Action Recognition (SHAR)によって実証されており、多くのCVパイプラインにおいてリアルタイムおよびエッジで運用されている。
従来検討されていなかった劣化形態が,モデル精度に大きな影響を与えることを示すことで,このベンチマークの必要性を実証する。
劣化したSHARデータにおけるフレームの時間的規則性は、モデル性能の違いの主要な要因である可能性が高い。
- 参考スコア(独自算出の注目度): 3.0519884745675485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision (CV) models for detection, prediction or classification tasks operate on video data-streams that are often degraded in the real world, due to deployment in real-time or on resource-constrained hardware. It is therefore critical that these models are robust to degraded data, but state of the art (SoTA) models are often insufficiently assessed with these real-world constraints in mind. This is exemplified by Skeletal Human Action Recognition (SHAR), which is critical in many CV pipelines operating in real-time and at the edge, but robustness to degraded data has previously only been shallowly and inconsistently assessed. Here we address this issue for SHAR by providing an important first data degradation benchmark on the most detailed and largest 3D open dataset, NTU-RGB+D-120, and assess the robustness of five leading SHAR models to three forms of degradation that represent real-world issues. We demonstrate the need for this benchmark by showing that the form of degradation, which has not previously been considered, has a large impact on model accuracy; at the same effective frame rate, model accuracy can vary by >40% depending on degradation type. We also identify that temporal regularity of frames in degraded SHAR data is likely a major driver of differences in model performance, and harness this to improve performance of existing models by up to >40%, through employing a simple mitigation approach based on interpolation. Finally, we highlight how our benchmark has helped identify an important degradation-resistant SHAR model based in Rough Path Theory; the LogSigRNN SHAR model outperforms the SoTA DeGCN model in five out of six cases at low frame rates by an average accuracy of 6%, despite trailing the SoTA model by 11-12% on un-degraded data at high frame rates (30 FPS).
- Abstract(参考訳): 検出、予測、分類タスクのためのコンピュータビジョン(CV)モデルは、リアルタイムまたはリソース制約のあるハードウェアへのデプロイのために、しばしば現実世界で劣化するビデオデータストリームで動作する。
したがって、これらのモデルが劣化したデータに対して堅牢であることは重要であるが、現状技術(SoTA)モデルは、これらの実世界の制約を念頭において、しばしば不十分に評価される。
これは、リアルタイムおよびエッジで動作する多くのCVパイプラインにおいて重要であるが、劣化したデータに対するロバスト性は、これまでは浅く、一貫性のない評価しか行われていなかった、Skeletal Human Action Recognition (SHAR)によって実証されている。
ここでは、最も詳細かつ最大の3DオープンデータセットであるNTU-RGB+D-120上で、SHARのこの問題に対処する。
従来検討されていなかった劣化形態がモデル精度に大きな影響を与えることを示すことにより,本ベンチマークの必要性を実証する。
また、劣化したSHARデータのフレームの時間的規則性はモデル性能の違いの主要な要因であり、補間に基づく単純な緩和手法を用いて、既存のモデルの性能を最大40%向上させる。
最後に、我々のベンチマークがRough Path Theoryに基づく重要な劣化耐性SHARモデルを特定するのにどう役立つかを強調し、LogSigRNN SHARモデルは、高いフレームレート(30 FPS)で非劣化データに対して、SoTAモデルを11-12%追従したにもかかわらず、低いフレームレートで6ケース中5ケースにおいて、SoTA DeGCNモデルを平均6%上回った。
関連論文リスト
- Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。
品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - Addressing Concept Shift in Online Time Series Forecasting: Detect-then-Adapt [37.98336090671441]
概念 textbfDrift textbfDetection antextbfD textbfAdaptation (D3A)
まずドリフトの概念を検知し、次に急激な適応の検出の後、現在のモデルをドリフトされた概念に積極的に適応する。
これは、トレイン-テストのパフォーマンスの不整合に寄与する重要な要因であるデータ分散ギャップを軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-03-22T04:44:43Z) - Three-Stage Adjusted Regression Forecasting (TSARF) for Software Defect
Prediction [5.826476252191368]
非均一ポアソン過程 (NHPP) SRGM が最も一般的に用いられるモデルである。
モデル複雑性の増大は、堅牢で計算効率のよいアルゴリズムを識別する上での課題である。
論文 参考訳(メタデータ) (2024-01-31T02:19:35Z) - A Training Rate and Survival Heuristic for Inference and Robustness Evaluation (TRASHFIRE) [1.622320874892682]
この研究は、特定のモデルハイパーパラメータが、相手の存在下でモデルの性能にどのように影響するかを理解し予測する問題に対処する。
提案手法では、サバイバルモデル、最悪の例、コスト認識分析を用いて、特定のモデル変更を正確かつ正確に拒否する。
提案手法を用いて、最も単純なホワイトボックス攻撃に対して、ResNetは絶望的に反対であることを示す。
論文 参考訳(メタデータ) (2024-01-24T19:12:37Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。