論文の概要: Learning Long-Range Action Representation by Two-Stream Mamba Pyramid Network for Figure Skating Assessment
- arxiv url: http://arxiv.org/abs/2508.16291v1
- Date: Fri, 22 Aug 2025 10:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.360904
- Title: Learning Long-Range Action Representation by Two-Stream Mamba Pyramid Network for Figure Skating Assessment
- Title(参考訳): フィギュアスケート評価のための2ストリームマンバピラミッドネットワークによる長距離行動表現の学習
- Authors: Fengshun Wang, Qiurui Wang, Peilin Zhao,
- Abstract要約: フィギュアスケートにおけるTES(Technical Element Score)とPCS(Program Component Score)の評価
ビデオとオーディオのキューは、以前の作品では、TESとPCSの予測の両方に共通する特徴と見なされている。
TESとPCSを予測するために,実際の判定基準と整合した2ストリームのマンバピラミッドネットワークを提案する。
- 参考スコア(独自算出の注目度): 33.942117700841315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Technical Element Score (TES) and Program Component Score (PCS) evaluations in figure skating demand precise assessment of athletic actions and artistic interpretation, respectively. Existing methods face three major challenges. Firstly, video and audio cues are regarded as common features for both TES and PCS predictions in previous works without considering the prior evaluation criterion of figure skating. Secondly, action elements in competitions are separated in time, TES should be derived from each element's score, but existing methods try to give an overall TES prediction without evaluating each action element. Thirdly, lengthy competition videos make it difficult and inefficient to handle long-range contexts. To address these challenges, we propose a two-stream Mamba pyramid network that aligns with actual judging criteria to predict TES and PCS by separating visual-feature based TES evaluation stream from audio-visual-feature based PCS evaluation stream. In the PCS evaluation stream, we introduce a multi-level fusion mechanism to guarantee that video-based features remain unaffected when assessing TES, and enhance PCS estimation by fusing visual and auditory cues across each contextual level of the pyramid. In the TES evaluation stream, the multi-scale Mamba pyramid and TES head we proposed effectively address the challenges of localizing and evaluating action elements with various temporal scales and give score predictions. With Mamba's superior ability to capture long-range dependencies and its linear computational complexity, our method is ideal for handling lengthy figure skating videos. Comprehensive experimentation demonstrates that our framework attains state-of-the-art performance on the FineFS benchmark. Our source code is available at https://github.com/ycwfs/Figure-Skating-Action-Quality-Assessment.
- Abstract(参考訳): フィギュアスケートにおけるTES(Technical Element Score)とPCS(Program Component Score)の評価は,それぞれ,運動行動の正確な評価と芸術的解釈を要求している。
既存の手法は3つの大きな課題に直面している。
まず,前作のTESとPCSの予測において,フィギュアスケートの事前評価基準を考慮せずに,ビデオとオーディオのキューを共通する特徴とみなす。
第二に、競技におけるアクション要素は時間で分離され、TESは各要素のスコアから導かれるべきであるが、既存の手法では各アクション要素を評価することなく全体のTES予測を行おうとしている。
第三に、長いコンペティションビデオは、長距離コンテキストを扱うのが難しく、効率が悪い。
これらの課題に対処するために、視覚的特徴に基づくTES評価ストリームと視覚的特徴に基づくPCS評価ストリームを分離することにより、実際の判断基準と整合してTESとPCSを予測する2ストリームのMambaピラミッドネットワークを提案する。
PCS評価ストリームでは、TESを評価する際にビデオベースの特徴が影響を受けないことを保証するマルチレベル融合機構を導入し、ピラミッドの各文脈レベルにわたって視覚的および聴覚的手がかりを融合することによりPCS推定を強化する。
マルチスケールのマンバピラミッドとTESヘッドのTES評価ストリームにおいて,動作要素を様々な時間スケールで局所化し,評価し,スコア予測を行うことの課題を効果的に解決することを提案した。
マムバは長距離の依存関係を捉える能力と線形計算の複雑さに優れており、この手法は長いフィギュアスケートビデオを扱うのに最適である。
包括的実験により,FineFSベンチマークの最先端性能が得られた。
ソースコードはhttps://github.com/ycwfs/Figure-Skating-Action-Quality-Assessmentで公開しています。
関連論文リスト
- HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness [30.44039177018447]
CAPabilityは、6つの重要なビューにまたがる12次元にわたる視覚的キャプションを評価するための総合的なベンチマークである。
我々は、生成したキャプションを評価するために、視覚要素アノテーションで1万1千近い人注画像や動画をキュレートした。
論文 参考訳(メタデータ) (2025-02-19T07:55:51Z) - Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval [80.09819072780193]
平均精度(AP)は、関連ビデオのランキングを上位リストで評価する。
最近のビデオ検索手法は、全てのサンプル対を等しく扱うペアワイズ損失を利用する。
論文 参考訳(メタデータ) (2024-07-22T11:52:04Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - IRIS: Interpretable Rubric-Informed Segmentation for Action Quality
Assessment [7.929322038634728]
スポーツビデオのアクションクオリティアセスメント(AQA)は、オリンピックの審査員を模倣して、2つ目の意見として、あるいはトレーニングのためにパフォーマンスを評価するのに役立つ。
これらのAIメソッドは解釈不能であり、アルゴリズムのアカウンタビリティにとって重要なスコアを正当化しない。
Informed on action sequences for AQA。
論文 参考訳(メタデータ) (2023-03-16T06:01:21Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Temporal Alignment Prediction for Few-Shot Video Classification [17.18278071760926]
数ショットビデオ分類のためのシーケンス類似性学習に基づく時間アライメント予測(TAP)を提案する。
2つのビデオの類似性を得るために,2つのビデオの時間的位置のすべてのペア間のアライメントスコアを予測した。
我々は、KineeticsとSomething V2を含む2つのビデオ分類ベンチマークでTAPを評価した。
論文 参考訳(メタデータ) (2021-07-26T05:12:27Z) - Boundary Proposal Network for Two-Stage Natural Language Video
Localization [23.817486773852142]
境界提案ネットワーク(BPNet)は、上記の問題を除去する普遍的な2段階フレームワークである。
最初の段階では、BPNetはアンカーフリーモデルを使用して、その境界を持つ品質候補ビデオセグメントのグループを生成します。
第2段階では、候補と言語クエリの間の多言語相互作用を共同でモデル化するビジュアル言語融合層が提案される。
論文 参考訳(メタデータ) (2021-03-15T03:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。