Fugu-MT 論文翻訳(概要): TSA-Net: Tube Self-Attention Network for Action Quality Assessment

論文の概要: TSA-Net: Tube Self-Attention Network for Action Quality Assessment

arxiv url: http://arxiv.org/abs/2201.03746v1
Date: Tue, 11 Jan 2022 02:25:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-12 14:41:31.641646
Title: TSA-Net: Tube Self-Attention Network for Action Quality Assessment
Title（参考訳）: TSA-Net:行動品質評価のためのチューブ自己注意ネットワーク
Authors: Shunli Wang, Dingkang Yang, Peng Zhai, Chixiao Chen, Lihua Zhang
Abstract要約: 行動品質評価(AQA)のためのチューブ自己注意ネットワーク(TSA-Net)を提案する。 TSA-Netは、1)高い計算効率、2)高い柔軟性、3)最先端技術の性能。
参考スコア（独自算出の注目度）: 4.220843694492582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, assessing action quality from videos has attracted growing attention in computer vision community and human computer interaction. Most existing approaches usually tackle this problem by directly migrating the model from action recognition tasks, which ignores the intrinsic differences within the feature map such as foreground and background information. To address this issue, we propose a Tube Self-Attention Network (TSA-Net) for action quality assessment (AQA). Specifically, we introduce a single object tracker into AQA and propose the Tube Self-Attention Module (TSA), which can efficiently generate rich spatio-temporal contextual information by adopting sparse feature interactions. The TSA module is embedded in existing video networks to form TSA-Net. Overall, our TSA-Net is with the following merits: 1) High computational efficiency, 2) High flexibility, and 3) The state-of-the art performance. Extensive experiments are conducted on popular action quality assessment datasets including AQA-7 and MTL-AQA. Besides, a dataset named Fall Recognition in Figure Skating (FR-FS) is proposed to explore the basic action assessment in the figure skating scene.
Abstract（参考訳）: 近年,映像からのアクションクオリティの評価がコンピュータビジョンコミュニティやヒューマンコンピュータインタラクションにおいて注目を集めている。既存のアプローチの多くは、フォアグラウンドやバックグラウンド情報といった機能マップ内の本質的な違いを無視するアクション認識タスクからモデルを直接移行することで、この問題に対処している。この問題に対処するために,行動品質評価(AQA)のためのチューブ自己注意ネットワーク(TSA-Net)を提案する。具体的には、単一オブジェクトトラッカーをAQAに導入し、スパースな特徴相互作用を採用することで、時空間情報を高効率に生成できるチューブ自己認識モジュール(TSA)を提案する。 TSAモジュールは既存のビデオネットワークに埋め込まれ、TSA-Netを形成する。全体として、私たちのTSA-Netには以下のメリットがあります。 1)高い計算効率、 2)高い柔軟性、そして 3)最先端の芸術作品。 AQA-7 や MTL-AQA など,一般的な行動品質評価データセットに対して大規模な実験を行った。さらに、フィギュアスケートシーンにおける基本的なアクションアセスメントを検討するために、Fall Recognition in Figure Skating (FR-FS) というデータセットが提案されている。

関連論文リスト

Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-05-06T15:29:32Z)
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文参考訳（メタデータ） (2025-03-14T06:29:47Z)
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。 SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。 Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文参考訳（メタデータ） (2024-11-07T18:12:49Z)
GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文参考訳（メタデータ） (2024-06-10T08:18:07Z)
UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [23.48816491333345]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。本研究では,2つのタスクの一般的な認識を学習するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文参考訳（メタデータ） (2024-06-03T07:40:10Z)
Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling [31.696222064667243]
アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。既存のAQAの作業は、トレーニングデータはすべて一度にトレーニング用に見えるが、継続的な学習はできないと仮定している。本稿では,AQAタスクを忘れずに逐次学習するための統一モデルを提案する。
論文参考訳（メタデータ） (2023-09-29T10:06:28Z)
A Weak Supervision Approach for Few-Shot Aspect Based Sentiment [39.33888584498155]
豊富なラベルのないデータに対する弱みの監視は、感情分析タスクにおける数ショットのパフォーマンスを改善するために利用することができる。ノイズの多いABSAデータセットを構築するパイプライン手法を提案し,それを用いて事前学習されたシーケンス・ツー・シーケンスモデルをABSAタスクに適用する。提案手法は, 数ショット学習シナリオにおいて, 大幅な改良(15.84%) を示しながら, 完全な微調整性能を保っている。
論文参考訳（メタデータ） (2023-05-19T19:53:54Z)
Assessor360: Multi-sequence Network for Blind Omnidirectional Image Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。 ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。 Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文参考訳（メタデータ） (2023-05-18T13:55:28Z)
CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection [3.146076597280736]
ビデオ異常検出(VAD)は、ビデオ監視において、異常のフレームをトリミングされていないビデオにローカライズする必要がある難しい問題である。筆者らはまず,従来のC3DやI3Dと対照的に,CLIPの視覚的特徴をViTエンコードすることで,新しい手法の識別表現を効率的に抽出することを提案する。提案したCLIP-TSAは、VAD問題における3つの一般的なベンチマークデータセットに対して、既存の最先端(SOTA)メソッドよりも大きなマージンで優れている。
論文参考訳（メタデータ） (2022-12-09T22:28:24Z)
Siamese Object Tracking for Vision-Based UAM Approaching with Pairwise Scale-Channel Attention [27.114231832842034]
本研究は、視覚に基づくUAMアプローチのためのペアワイズスケールチャネルアテンション(SiamSA)を備えた新しいSiameseネットワークを提案する。 SiamSAは、ペアワイズスケールチャネルアテンションネットワーク(PSAN)とスケールアウェアアンカー提案ネットワーク(SA-APN)で構成されている。
論文参考訳（メタデータ） (2022-11-26T13:33:49Z)
Actor-identified Spatiotemporal Action Detection -- Detecting Who Is Doing What in Videos [29.5205455437899]
ビデオ中の各アクションの開始時刻と終了時刻を推定するために、TAD(Temporal Action Detection)が検討されている。時空間行動検出 (SAD) は, 映像の空間的, 時間的両方の行動の局所化を目的として研究されている。 SADアクター識別のギャップを埋める新しいタスクであるActor-identified Spatiotemporal Action Detection (ASAD)を提案する。
論文参考訳（メタデータ） (2022-08-27T06:51:12Z)
Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文参考訳（メタデータ） (2022-04-17T00:42:14Z)
Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文参考訳（メタデータ） (2021-05-11T07:45:32Z)
Mining Implicit Relevance Feedback from User Behavior for Web Question Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文参考訳（メタデータ） (2020-06-13T07:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。