論文の概要: Action Quality Assessment using Transformers
- arxiv url: http://arxiv.org/abs/2207.12318v1
- Date: Wed, 20 Jul 2022 17:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-31 14:14:17.749375
- Title: Action Quality Assessment using Transformers
- Title(参考訳): 変圧器を用いた行動品質評価
- Authors: Abhay Iyer, Mohammad Alali, Hemanth Bodala, Sunit Vaidya
- Abstract要約: アクション品質アセスメント(AQA)は、ビデオベースのアプリケーションにおいて活発な研究課題である。
本稿では,トランスフォーマーが従来の畳み込み型アーキテクチャの代替となることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action quality assessment (AQA) is an active research problem in video-based
applications that is a challenging task due to the score variance per frame.
Existing methods address this problem via convolutional-based approaches but
suffer from its limitation of effectively capturing long-range dependencies.
With the recent advancements in Transformers, we show that they are a suitable
alternative to the conventional convolutional-based architectures.
Specifically, can transformer-based models solve the task of AQA by effectively
capturing long-range dependencies, parallelizing computation, and providing a
wider receptive field for diving videos? To demonstrate the effectiveness of
our proposed architectures, we conducted comprehensive experiments and achieved
a competitive Spearman correlation score of 0.9317. Additionally, we explore
the hyperparameters effect on the model's performance and pave a new path for
exploiting Transformers in AQA.
- Abstract(参考訳): アクション品質アセスメント(AQA)は、ビデオベースのアプリケーションにおいて、フレームごとのスコアのばらつきによって難しい課題である。
既存の方法は畳み込みに基づくアプローチによってこの問題に対処するが、長距離依存関係を効果的にキャプチャする限界に悩む。
近年のトランスフォーマーの進歩により,従来の畳み込み型アーキテクチャの代替となるものと考えられる。
具体的には、トランスフォーマーベースのモデルは、長距離依存関係を効果的にキャプチャし、計算を並列化し、ダイビングビデオのより広い受容場を提供することで、AQAの課題を解決できるだろうか?
提案手法の有効性を実証するため, 総合実験を行い, 競合するスピアマン相関スコア0.9317を達成した。
さらに、モデルの性能に対するハイパーパラメータの影響を調査し、AQAにおけるトランスフォーマーを活用するための新しいパスを舗装する。
関連論文リスト
- KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。
また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T22:14:56Z) - GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。
我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。
その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-06-10T08:18:07Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers [10.566264033360282]
ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - Multi-Stage Contrastive Regression for Action Quality Assessment [31.763380011104015]
本稿では,アクション品質評価(AQA)タスクのためのMCoRe(Multi-stage Contrastive Regression)フレームワークを提案する。
グラフのコントラスト学習にヒントを得て,新たな段階的コントラスト学習損失関数を提案する。
MCoReは、広く採用されている詳細なAQAデータセット上で、最先端の結果を実証している。
論文 参考訳(メタデータ) (2024-01-05T14:48:19Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - End-to-end Transformer for Compressed Video Quality Enhancement [21.967066471073462]
本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
論文 参考訳(メタデータ) (2022-10-25T08:12:05Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。