論文の概要: Action Quality Assessment using Siamese Network-Based Deep Metric
Learning
- arxiv url: http://arxiv.org/abs/2002.12096v1
- Date: Thu, 27 Feb 2020 14:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:48:34.506042
- Title: Action Quality Assessment using Siamese Network-Based Deep Metric
Learning
- Title(参考訳): シームズネットワークを用いた深層学習による行動品質評価
- Authors: Hiteshi Jain, Gaurav Harit, Avinash Sharma
- Abstract要約: 提案されたスコアリングモデルはオリンピックのダイビングと体育のヴォートでテストされている。
このモデルは、既存の最先端のスコアリングモデルよりも優れています。
- 参考スコア(独自算出の注目度): 7.945673227394573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated vision-based score estimation models can be used as an alternate
opinion to avoid judgment bias. In the past works the score estimation models
were learned by regressing the video representations to the ground truth score
provided by the judges. However such regression-based solutions lack
interpretability in terms of giving reasons for the awarded score. One solution
to make the scores more explicable is to compare the given action video with a
reference video. This would capture the temporal variations w.r.t. the
reference video and map those variations to the final score. In this work, we
propose a new action scoring system as a two-phase system: (1) A Deep Metric
Learning Module that learns similarity between any two action videos based on
their ground truth scores given by the judges; (2) A Score Estimation Module
that uses the first module to find the resemblance of a video to a reference
video in order to give the assessment score. The proposed scoring model has
been tested for Olympics Diving and Gymnastic vaults and the model outperforms
the existing state-of-the-art scoring models.
- Abstract(参考訳): 自動視覚に基づくスコア推定モデルは、判断バイアスを避けるための代替意見として使用できる。
過去の研究では,映像表現を審査員が提示した真実スコアに回帰することで,スコア推定モデルを学習した。
しかし、これらの回帰に基づく解は、与えられたスコアの理由を与えるという点で解釈可能性に欠ける。
スコアをよりわかりやすくするための解決策は、与えられたアクションビデオと参照ビデオを比較することである。
これにより、参照ビデオの時間変動を捉え、それらの変動を最終的なスコアにマッピングする。
本研究では,2段階システムとしての新たなアクションスコアリングシステムを提案する。(1)ジャッジが与えた基礎的真理スコアに基づいて,任意の2つのアクションビデオ間の類似性を学習するディープメトリック学習モジュール,(2)第1のモジュールを用いて参照ビデオに対するビデオの類似度を判断し,評価スコアを与えるためのスコア推定モジュールである。
提案されたスコアリングモデルはオリンピックのダイビングや体操の高跳び用にテストされ、既存の最先端のスコアリングモデルよりも優れています。
関連論文リスト
- Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval [80.09819072780193]
平均精度(AP)は、関連ビデオのランキングを上位リストで評価する。
最近のビデオ検索手法は、全てのサンプル対を等しく扱うペアワイズ損失を利用する。
論文 参考訳(メタデータ) (2024-07-22T11:52:04Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video
Retrieval Benchmarks [6.540440003084223]
ビデオキャプションデータセットは、モデルを評価するために再利用されている。
多くの代替ビデオもキャプションと一致し、偽陰性なキャプションとビデオのペアが導入された。
これらの誤りを正すと、最近の最先端モデルでは25%のリコールポイントが得られることを示す。
論文 参考訳(メタデータ) (2022-10-10T22:45:06Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文 参考訳(メタデータ) (2020-07-29T02:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。