論文の概要: TSA-Net: Tube Self-Attention Network for Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2201.03746v1
- Date: Tue, 11 Jan 2022 02:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:41:31.641646
- Title: TSA-Net: Tube Self-Attention Network for Action Quality Assessment
- Title(参考訳): TSA-Net:行動品質評価のためのチューブ自己注意ネットワーク
- Authors: Shunli Wang, Dingkang Yang, Peng Zhai, Chixiao Chen, Lihua Zhang
- Abstract要約: 行動品質評価(AQA)のためのチューブ自己注意ネットワーク(TSA-Net)を提案する。
TSA-Netは、1)高い計算効率、2)高い柔軟性、3)最先端技術の性能。
- 参考スコア(独自算出の注目度): 4.220843694492582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, assessing action quality from videos has attracted growing
attention in computer vision community and human computer interaction. Most
existing approaches usually tackle this problem by directly migrating the model
from action recognition tasks, which ignores the intrinsic differences within
the feature map such as foreground and background information. To address this
issue, we propose a Tube Self-Attention Network (TSA-Net) for action quality
assessment (AQA). Specifically, we introduce a single object tracker into AQA
and propose the Tube Self-Attention Module (TSA), which can efficiently
generate rich spatio-temporal contextual information by adopting sparse feature
interactions. The TSA module is embedded in existing video networks to form
TSA-Net. Overall, our TSA-Net is with the following merits: 1) High
computational efficiency, 2) High flexibility, and 3) The state-of-the art
performance. Extensive experiments are conducted on popular action quality
assessment datasets including AQA-7 and MTL-AQA. Besides, a dataset named Fall
Recognition in Figure Skating (FR-FS) is proposed to explore the basic action
assessment in the figure skating scene.
- Abstract(参考訳): 近年,映像からのアクションクオリティの評価がコンピュータビジョンコミュニティやヒューマンコンピュータインタラクションにおいて注目を集めている。
既存のアプローチの多くは、フォアグラウンドやバックグラウンド情報といった機能マップ内の本質的な違いを無視するアクション認識タスクからモデルを直接移行することで、この問題に対処している。
この問題に対処するために,行動品質評価(AQA)のためのチューブ自己注意ネットワーク(TSA-Net)を提案する。
具体的には、単一オブジェクトトラッカーをAQAに導入し、スパースな特徴相互作用を採用することで、時空間情報を高効率に生成できるチューブ自己認識モジュール(TSA)を提案する。
TSAモジュールは既存のビデオネットワークに埋め込まれ、TSA-Netを形成する。
全体として、私たちのTSA-Netには以下のメリットがあります。
1)高い計算効率、
2)高い柔軟性、そして
3)最先端の芸術作品。
AQA-7 や MTL-AQA など,一般的な行動品質評価データセットに対して大規模な実験を行った。
さらに、フィギュアスケートシーンにおける基本的なアクションアセスメントを検討するために、Fall Recognition in Figure Skating (FR-FS) というデータセットが提案されている。
関連論文リスト
- Continual Action Assessment via Task-Consistent Score-Discriminative
Feature Distribution Modeling [34.625845564581226]
アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。
既存のAQAの作業は、トレーニングデータはすべて一度にトレーニングのために可視であると仮定している。
本稿では,AQAタスクを忘れずに逐次学習するための統一モデルを提案する。
論文 参考訳(メタデータ) (2023-09-29T10:06:28Z) - A Weak Supervision Approach for Few-Shot Aspect Based Sentiment [39.33888584498155]
豊富なラベルのないデータに対する弱みの監視は、感情分析タスクにおける数ショットのパフォーマンスを改善するために利用することができる。
ノイズの多いABSAデータセットを構築するパイプライン手法を提案し,それを用いて事前学習されたシーケンス・ツー・シーケンスモデルをABSAタスクに適用する。
提案手法は, 数ショット学習シナリオにおいて, 大幅な改良(15.84%) を示しながら, 完全な微調整性能を保っている。
論文 参考訳(メタデータ) (2023-05-19T19:53:54Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised
Video Anomaly Detection [3.146076597280736]
ビデオ異常検出(VAD)は、ビデオ監視において、異常のフレームをトリミングされていないビデオにローカライズする必要がある難しい問題である。
筆者らはまず,従来のC3DやI3Dと対照的に,CLIPの視覚的特徴をViTエンコードすることで,新しい手法の識別表現を効率的に抽出することを提案する。
提案したCLIP-TSAは、VAD問題における3つの一般的なベンチマークデータセットに対して、既存の最先端(SOTA)メソッドよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-09T22:28:24Z) - Siamese Object Tracking for Vision-Based UAM Approaching with Pairwise
Scale-Channel Attention [27.114231832842034]
本研究は、視覚に基づくUAMアプローチのためのペアワイズスケールチャネルアテンション(SiamSA)を備えた新しいSiameseネットワークを提案する。
SiamSAは、ペアワイズスケールチャネルアテンションネットワーク(PSAN)とスケールアウェアアンカー提案ネットワーク(SA-APN)で構成されている。
論文 参考訳(メタデータ) (2022-11-26T13:33:49Z) - Actor-identified Spatiotemporal Action Detection -- Detecting Who Is
Doing What in Videos [29.5205455437899]
ビデオ中の各アクションの開始時刻と終了時刻を推定するために、TAD(Temporal Action Detection)が検討されている。
時空間行動検出 (SAD) は, 映像の空間的, 時間的両方の行動の局所化を目的として研究されている。
SADアクター識別のギャップを埋める新しいタスクであるActor-identified Spatiotemporal Action Detection (ASAD)を提案する。
論文 参考訳(メタデータ) (2022-08-27T06:51:12Z) - Instance As Identity: A Generic Online Paradigm for Video Instance
Segmentation [84.3695480773597]
我々はインスタンス・アズ・アイデンティティ(IAI)という新しいオンラインVISパラダイムを提案する。
IAIは、検出と追跡の両方の時間情報を効率的な方法でモデル化する。
3つのVISベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-05T10:29:30Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - I-ViSE: Interactive Video Surveillance as an Edge Service using
Unsupervised Feature Queries [70.69741666849046]
本稿では、教師なし機能クエリに基づくエッジサービス(I-ViSE)としてインタラクティブビデオ監視を提案する。
I-ViSEのプロトタイプはエッジフォッグコンピューティングのパラダイムに従って構築され、実験により、I-ViSE方式がシーン認識の設計目標を2秒以内で満たすことを確認した。
論文 参考訳(メタデータ) (2020-03-09T14:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。