論文の概要: FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment
- arxiv url: http://arxiv.org/abs/2204.03646v1
- Date: Thu, 7 Apr 2022 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:59:45.171633
- Title: FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment
- Title(参考訳): FineDiving: アクション品質評価のための細粒度データセット
- Authors: Jinglin Xu, Yongming Rao, Xumin Yu, Guangyi Chen, Jie Zhou, Jiwen Lu
- Abstract要約: 競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
- 参考スコア(独自算出の注目度): 93.09267863425492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing action quality assessment methods rely on the deep features of
an entire video to predict the score, which is less reliable due to the
non-transparent inference process and poor interpretability. We argue that
understanding both high-level semantics and internal temporal structures of
actions in competitive sports videos is the key to making predictions accurate
and interpretable. Towards this goal, we construct a new fine-grained dataset,
called FineDiving, developed on diverse diving events with detailed annotations
on action procedures. We also propose a procedure-aware approach for action
quality assessment, learned by a new Temporal Segmentation Attention module.
Specifically, we propose to parse pairwise query and exemplar action instances
into consecutive steps with diverse semantic and temporal correspondences. The
procedure-aware cross-attention is proposed to learn embeddings between query
and exemplar steps to discover their semantic, spatial, and temporal
correspondences, and further serve for fine-grained contrastive regression to
derive a reliable scoring mechanism. Extensive experiments demonstrate that our
approach achieves substantial improvements over state-of-the-art methods with
better interpretability. The dataset and code are available at
\url{https://github.com/xujinglin/FineDiving}.
- Abstract(参考訳): 既存のアクション品質評価手法の多くは、スコアを予測するためにビデオ全体の深い特徴に依存しており、不透明な推論プロセスと低い解釈可能性のために信頼性が低い。
スポーツビデオにおけるハイレベルセマンティクスと行動の内部的時間構造の両方を理解することが、予測を正確かつ解釈可能なものにするための鍵であると主張する。
この目的に向けて,アクションプロシージャに関する詳細なアノテーションを備えた多種多様なダイビングイベントに基づいて,ファインディビジョンと呼ばれる新しいきめ細かいデータセットを構築した。
また,新たな時間分割注意モジュールを用いて,行動品質評価のための手順認識手法を提案する。
具体的には,ペアワイズクエリとexemplarアクションインスタンスを,意味的および時間的対応の異なる連続したステップに解析する。
提案手法は,問合せと先行ステップ間の埋め込みを学習し,その意味的,空間的,時間的対応を把握し,また信頼性の高いスコアリング機構を導出するための微細なコントラスト回帰に役立てる。
広範な実験により,我々のアプローチは解釈性を高めつつ,最先端のメソッドよりも大幅に改善できることが証明された。
データセットとコードは \url{https://github.com/xujinglin/finediving} で入手できる。
関連論文リスト
- SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - FineParser: A Fine-grained Spatio-temporal Action Parser for Human-centric Action Quality Assessment [30.601466217201253]
既存の行動品質評価(AQA)手法は、様々な行動を評価するために、主にビデオレベルで深い表現を学習する。
ビデオにおけるアクションのきめ細かい理解が欠如しているため、信頼性と解釈性が低く、オリンピックのダイビングイベントのような厳格な応用には不十分である。
我々は、アクションのきめ細かい理解には、時間と空間の両方でアクションを知覚し解析する必要があると論じ、これはAQA手法の信頼性と解釈可能性の鍵でもある。
論文 参考訳(メタデータ) (2024-05-11T02:57:16Z) - Advancing Relation Extraction through Language Probing with Exemplars
from Set Co-Expansion [1.450405446885067]
関係抽出(RE)は、構造化されていないテキストから構造化情報を自動的に抽出する重要なタスクである。
代表例を統合し,コセット展開を通じて多面的アプローチを提案する。
提案手法は,ほとんどの設定において,少なくとも1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-08-18T00:56:35Z) - Demystifying Unsupervised Semantic Correspondence Estimation [13.060538447838303]
教師なし学習のレンズによる意味対応推定について検討する。
我々は、最近提案された複数の課題データセットにまたがる教師なしの手法を徹底的に評価した。
本稿では,事前学習した特徴の強さを活かし,トレーニング中のより優れた試合を奨励する,新しい教師なし対応手法を提案する。
論文 参考訳(メタデータ) (2022-07-11T17:59:51Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - A Positive/Unlabeled Approach for the Segmentation of Medical Sequences
using Point-Wise Supervision [3.883460584034766]
本稿では,ポイントワイズアノテーションのみを用いて,医用画像のボリュームや動画を効率的に分割する手法を提案する。
提案手法は,ポイントワイドアノテーションを用いて,適切なポジティブ/アンラベル対象関数を用いてディープラーニングモデルを訓練する。
提案手法は,同じ問題に適応した最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-18T09:13:33Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。