論文の概要: Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization
- arxiv url: http://arxiv.org/abs/2510.06842v1
- Date: Wed, 08 Oct 2025 10:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.414006
- Title: Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization
- Title(参考訳): 適応マニフォールド対応グラフ正規化による連続的行動品質評価
- Authors: Kanglei Zhou, Qingyi Pan, Xingxing Zhang, Hubert P. H. Shum, Frederick W. B. Li, Xiaohui Liang, Liyuan Wang,
- Abstract要約: アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
- 参考スコア(独自算出の注目度): 53.82400605816587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action Quality Assessment (AQA) quantifies human actions in videos, supporting applications in sports scoring, rehabilitation, and skill evaluation. A major challenge lies in the non-stationary nature of quality distributions in real-world scenarios, which limits the generalization ability of conventional methods. We introduce Continual AQA (CAQA), which equips AQA with Continual Learning (CL) capabilities to handle evolving distributions while mitigating catastrophic forgetting. Although parameter-efficient fine-tuning of pretrained models has shown promise in CL for image classification, we find it insufficient for CAQA. Our empirical and theoretical analyses reveal two insights: (i) Full-Parameter Fine-Tuning (FPFT) is necessary for effective representation learning; yet (ii) uncontrolled FPFT induces overfitting and feature manifold shift, thereby aggravating forgetting. To address this, we propose Adaptive Manifold-Aligned Graph Regularization (MAGR++), which couples backbone fine-tuning that stabilizes shallow layers while adapting deeper ones with a two-step feature rectification pipeline: a manifold projector to translate deviated historical features into the current representation space, and a graph regularizer to align local and global distributions. We construct four CAQA benchmarks from three datasets with tailored evaluation protocols and strong baselines, enabling systematic cross-dataset comparison. Extensive experiments show that MAGR++ achieves state-of-the-art performance, with average correlation gains of 3.6% offline and 12.2% online over the strongest baseline, confirming its robustness and effectiveness. Our code is available at https://github.com/ZhouKanglei/MAGRPP.
- Abstract(参考訳): アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、従来の手法の一般化能力を制限する実世界のシナリオにおける品質分布の非定常性にある。
本稿では,AQAと連続学習(CL)機能を組み合わせた連続AQA(Continuous AQA)を提案する。
パラメータ効率のよい事前学習モデルの微調整は、画像分類においてCLで約束されているが、CAQAでは不十分である。
私たちの経験的、理論的分析は2つの洞察を明らかにします。
i) 効果的な表現学習にはFPFT(Full-Parameter Fine-Tuning)が必要であるが、
(ii) 制御されていないFPFTは、過剰適合と特徴多様体シフトを誘導し、これにより忘れを増大させる。
そこで本研究では,2段階の機能修正パイプラインを用いて,浅層を安定化させるバックボーン微調整を両立させたアダプティブマニフォールド配向グラフ正規化(MAGR++)と,局所分布とグローバル分布を整列するグラフ正規化器を提案する。
評価プロトコルと強力なベースラインを備えた3つのデータセットから4つのCAQAベンチマークを構築し、体系的なクロスデータセット比較を可能にする。
大規模な実験によると、MAGR++は最先端のパフォーマンスを達成しており、平均的相関は3.6%、オンラインは12.2%で最強のベースラインを上回り、堅牢性と有効性を確認している。
私たちのコードはhttps://github.com/ZhouKanglei/MAGRPP.comで公開されています。
関連論文リスト
- A Lightweight Ensemble-Based Face Image Quality Assessment Method with Correlation-Aware Loss [14.915614314380578]
顔画像品質評価(FIQA)は、顔認識および検証システムにおいて重要な役割を果たす。
本研究では,野生における顔画像の知覚的評価を目的とした,軽量で効率的なFIQA法を提案する。
論文 参考訳(メタデータ) (2025-09-12T10:13:38Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - FOVAL: Calibration-Free and Subject-Invariant Fixation Depth Estimation Across Diverse Eye-Tracking Datasets [0.0]
深度推定に対するロバストなキャリブレーションフリーアプローチであるFOVALを導入する。
変換器、時空間ネットワーク(TCN)、CNNと比較して、FOVALは優れた性能を発揮する。
LOOCV(Leave-One-Out Cross-Validation)とクロスデータセットバリデーション(cross-dataset Validation)を用いた3つのベンチマークデータセットに対する評価は、平均絶対誤差(MAE)が9.1cmであり、キャリブレーションなしでの強い一般化を示している。
論文 参考訳(メタデータ) (2024-08-07T07:09:14Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - CoFInAl: Enhancing Action Quality Assessment with Coarse-to-Fine Instruction Alignment [38.12600984070689]
アクション品質アセスメント(AQA)は、スポーツや医療といった分野におけるアクションの定量化に重要である。
既存の方法は、小さなAQAデータセットのパフォーマンスを高めるために、大規模なアクション認識データセットからトレーニング済みのバックボーンに依存することが多い。
我々は、粗大な分類タスクとして再構成することで、AQAをより広範な事前訓練タスクと整合させるために、粗大なインストラクションアライメント(CoFInAl)を提案する。
論文 参考訳(メタデータ) (2024-04-22T09:03:21Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。