論文の概要: Multi-Stage Contrastive Regression for Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2401.02841v1
- Date: Fri, 5 Jan 2024 14:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 14:52:21.248636
- Title: Multi-Stage Contrastive Regression for Action Quality Assessment
- Title(参考訳): 行動品質評価のための多段階コントラスト回帰
- Authors: Qi An, Mengshi Qi, Huadong Ma
- Abstract要約: 本稿では,アクション品質評価(AQA)タスクのためのMCoRe(Multi-stage Contrastive Regression)フレームワークを提案する。
グラフのコントラスト学習にヒントを得て,新たな段階的コントラスト学習損失関数を提案する。
MCoReは、広く採用されている詳細なAQAデータセット上で、最先端の結果を実証している。
- 参考スコア(独自算出の注目度): 31.763380011104015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been growing interest in the video-based action
quality assessment (AQA). Most existing methods typically solve AQA problem by
considering the entire video yet overlooking the inherent stage-level
characteristics of actions. To address this issue, we design a novel
Multi-stage Contrastive Regression (MCoRe) framework for the AQA task. This
approach allows us to efficiently extract spatial-temporal information, while
simultaneously reducing computational costs by segmenting the input video into
multiple stages or procedures. Inspired by the graph contrastive learning, we
propose a new stage-wise contrastive learning loss function to enhance
performance. As a result, MCoRe demonstrates the state-of-the-art result so far
on the widely-adopted fine-grained AQA dataset.
- Abstract(参考訳): 近年,ビデオベースの行動品質評価(AQA)への関心が高まっている。
既存のほとんどの手法は、アクションのステージレベルの特性を見落としながらビデオ全体を考慮し、AQA問題を解決するのが一般的である。
この問題に対処するため、我々はAQAタスクのための新しいMCoRe(Multi-stage Contrastive Regression)フレームワークを設計する。
この手法により,入力映像を複数のステージや手順に分割して計算コストを削減しつつ,空間的時間的情報抽出を効率的に行うことができる。
グラフのコントラスト学習にヒントを得て,新たな段階的コントラスト学習損失関数を提案する。
その結果、MCoReは、広く採用されている詳細なAQAデータセット上で、最先端の結果を実証している。
関連論文リスト
- Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting [15.161997580529075]
本稿では,連続学習フレームワークにおけるビデオQAの新たな課題について考察する。
我々は,特定の質問制約の促進,知識獲得の促進,視覚的時間的認識の促進を統合した協調的プロンプト(ColPro)を提案する。
NExT-QAデータセットとDramaQAデータセットの実験的結果は、ColProが既存のアプローチよりも優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-10-01T15:07:07Z) - Interpretable Long-term Action Quality Assessment [12.343701556374556]
長時間の行動品質評価(AQA)は、ビデオにおける活動の実行を評価する。
現在のAQA法は、クリップの特徴を平均化することで単一のスコアを生成する。
長期的なビデオは、アクションの複雑さと多様性のために、さらなる困難を生じさせる。
論文 参考訳(メタデータ) (2024-08-21T15:09:09Z) - KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。
また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T22:14:56Z) - GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。
我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。
その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-06-10T08:18:07Z) - Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling [31.696222064667243]
アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。
既存のAQAの作業は、トレーニングデータはすべて一度にトレーニング用に見えるが、継続的な学習はできないと仮定している。
本稿では,AQAタスクを忘れずに逐次学習するための統一モデルを提案する。
論文 参考訳(メタデータ) (2023-09-29T10:06:28Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Auto-Encoding Score Distribution Regression for Action Quality
Assessment [41.45638722765149]
ビデオからのアクション品質評価(AQA)は難しい視力課題である。
伝統的に、AQAタスクは、ビデオとアクションスコアの間の基盤となるマッピングを学ぶための回帰問題として扱われる。
上記の問題に対処するため、配電用オートエンコーダ(DAE)を開発した。
論文 参考訳(メタデータ) (2021-11-22T07:30:04Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。