Fugu-MT 論文翻訳(概要): Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos

論文の概要: Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos

arxiv url: http://arxiv.org/abs/2008.05977v1
Date: Thu, 13 Aug 2020 15:51:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-30 23:31:20.874853
Title: Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos
Title（参考訳）: 長編ビデオにおける行動評価のためのハイブリッド動的静的コンテキスト認識注意ネットワーク
Authors: Ling-An Zeng, Fa-Ting Hong, Wei-Shi Zheng, Qi-Zhi Yu, Wei Zeng, Yao-Wei Wang, and Jian-Huang Lai
Abstract要約: 本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。 2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
参考スコア（独自算出の注目度）: 96.45804577283563
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The objective of action quality assessment is to score sports videos. However, most existing works focus only on video dynamic information (i.e., motion information) but ignore the specific postures that an athlete is performing in a video, which is important for action assessment in long videos. In this work, we present a novel hybrid dynAmic-static Context-aware attenTION NETwork (ACTION-NET) for action assessment in long videos. To learn more discriminative representations for videos, we not only learn the video dynamic information but also focus on the static postures of the detected athletes in specific frames, which represent the action quality at certain moments, along with the help of the proposed hybrid dynamic-static architecture. Moreover, we leverage a context-aware attention module consisting of a temporal instance-wise graph convolutional network unit and an attention unit for both streams to extract more robust stream features, where the former is for exploring the relations between instances and the latter for assigning a proper weight to each instance. Finally, we combine the features of the two streams to regress the final video score, supervised by ground-truth scores given by experts. Additionally, we have collected and annotated the new Rhythmic Gymnastics dataset, which contains videos of four different types of gymnastics routines, for evaluation of action quality assessment in long videos. Extensive experimental results validate the efficacy of our proposed method, which outperforms related approaches. The codes and dataset are available at \url{https://github.com/lingan1996/ACTION-NET}.
Abstract（参考訳）: アクション品質評価の目的は、スポーツビデオを評価することである。しかし、既存の作品の多くは動画のダイナミック情報(運動情報)にのみ焦点を合わせているが、スポーツ選手がビデオで演じている特定の姿勢を無視することは、長いビデオにおけるアクションアセスメントにとって重要である。本稿では,長時間ビデオにおけるアクションアセスメントのための新しいハイブリットdynAmic-static Context-aware attenTION NETwork(ACTION-NET)を提案する。ビデオの識別表現をより詳しく知るために,提案するハイブリッド動的静的アーキテクチャの助けを借りて,映像動的情報を学習するだけでなく,特定のフレーム内の検出されたアスリートの静的姿勢にも注目する。さらに、時間的なインスタンス単位のグラフ畳み込みネットワークユニットと、両方のストリームがより堅牢なストリーム特徴を抽出するためのアテンションユニットからなるコンテキスト対応アテンションモジュールを活用し、前者はインスタンスと後者の関係を探り、各インスタンスに適切な重みを割り当てる。最後に、2つのストリームの特徴を組み合わせることで、専門家が与える地味なスコアによって監督された最終的なビデオスコアを抑える。また、4種類の体操ルーチンのビデオを含む新新新体操データセットを収集・注釈し,長編ビデオにおけるアクション品質評価の評価を行った。その結果,提案手法の有効性が検証され,関連する手法よりも優れていた。コードとデータセットは \url{https://github.com/lingan1996/action-net} で利用可能である。

関連論文リスト

Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文参考訳（メタデータ） (2025-01-27T10:57:24Z)
Benchmarking Badminton Action Recognition with a New Fine-Grained Dataset [16.407837909069073]
高品質なバドミントン映像から得られたビデオバドミントンデータセットを紹介する。 VideoBadmintonの導入は、バドミントンアクション認識だけでなく、きめ細かいアクションを認識するためのデータセットも提供する。
論文参考訳（メタデータ） (2024-03-19T02:52:06Z)
Few-shot Action Recognition via Intra- and Inter-Video Information Maximization [28.31541961943443]
本稿では,ビデオ情報最大化(VIM)という,アクション認識のための新しいフレームワークを提案する。 VIMは適応型時空間ビデオサンプリング器と時空間行動アライメントモデルを備える。 VIMは、限られたビデオデータからの映像情報の識別性を最大化するために機能する。
論文参考訳（メタデータ） (2023-05-10T13:05:43Z)
Towards Active Learning for Action Spotting in Association Football Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-09T11:50:41Z)
Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文参考訳（メタデータ） (2022-08-09T16:59:24Z)
Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文参考訳（メタデータ） (2022-03-09T01:30:57Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文参考訳（メタデータ） (2021-10-07T15:30:18Z)
HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4～12%向上したことを観察した。
論文参考訳（メタデータ） (2021-10-05T01:18:15Z)
OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文参考訳（メタデータ） (2020-03-08T04:34:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。