論文の概要: Improving Action Quality Assessment using ResNets and Weighted
Aggregation
- arxiv url: http://arxiv.org/abs/2102.10555v1
- Date: Sun, 21 Feb 2021 08:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:58:41.330601
- Title: Improving Action Quality Assessment using ResNets and Weighted
Aggregation
- Title(参考訳): ResNetと軽量アグリゲーションによる行動品質評価の改善
- Authors: Shafkat Farabi, Hasibul Haque Himel, Fakhruddin Gazzali, Bakhtiar
Hasan, Md. Hasanul Kabir, Moshiur Farazi
- Abstract要約: アクション品質評価(AQA)は、そのアクションのビデオに基づいて人間の行動を自動的に判断し、パフォーマンススコアを割り当てることを目指しています。
AQAの既存の文献の多くは、RGBのビデオをC3Dネットワークを使って高レベルな表現に変換する。
C3Dの比較的浅い性質のため、抽出された特徴の質はより深い畳み込みニューラルネットワークを用いて抽出できるものよりも低い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action quality assessment (AQA) aims at automatically judging human action
based on a video of the said action and assigning a performance score to it.
The majority of works in the existing literature on AQA transform RGB videos to
higher-level representations using C3D networks. These higher-level
representations are used to perform action quality assessment. Due to the
relatively shallow nature of C3D, the quality of extracted features is lower
than what could be extracted using a deeper convolutional neural network. In
this paper, we experiment with deeper convolutional neural networks with
residual connections for learning representations for action quality
assessment. We assess the effects of the depth and the input clip size of the
convolutional neural network on the quality of action score predictions. We
also look at the effect of using (2+1)D convolutions instead of 3D convolutions
for feature extraction. We find that the current clip level feature
representation aggregation technique of averaging is insufficient to capture
the relative importance of features. To overcome this, we propose a
learning-based weighted-averaging technique that can perform better. We achieve
a new state-of-the-art Spearman's rank correlation of 0.9315 (an increase of
0.45%) on the MTL-AQA dataset using a 34 layer (2+1)D convolutional neural
network with the capability of processing 32 frame clips, using our proposed
aggregation technique.
- Abstract(参考訳): アクション品質評価(AQA)は、そのアクションのビデオに基づいて人間の行動を自動的に判断し、パフォーマンススコアを割り当てることを目指しています。
AQAの既存の文献の多くは、RGBのビデオをC3Dネットワークを使って高レベルな表現に変換する。
これらの高レベル表現は、行動品質評価を行うために使用されます。
C3Dの比較的浅い性質のため、抽出された特徴の質はより深い畳み込みニューラルネットワークを用いて抽出できるものよりも低い。
本稿では,行動品質評価のための学習表現のための残差接続を持つ深い畳み込みニューラルネットワークを実験する。
畳み込みニューラルネットワークの深さと入力クリップサイズが動作スコアの予測精度に及ぼす影響について検討した。
また,特徴抽出のための3次元畳み込みの代わりに(2+1)d畳み込みを用いる効果についても検討する。
平均化の現在のクリップレベルの特徴表現集約技術は,特徴の相対的重要性を捉えるには不十分であることがわかった。
そこで本研究では,学習に基づく重み付け学習手法を提案する。
提案した集計手法を用いて, 34層(2+1)の畳み込みニューラルネットワークを用いて, MTL-AQAデータセットにおける最新のスピアマンのランク相関0.9315(0.45%の増加)を達成した。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - CNN-transformer mixed model for object detection [3.5897534810405403]
本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
論文 参考訳(メタデータ) (2022-12-13T16:35:35Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。