論文の概要: Interpretable Long-term Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2408.11687v1
- Date: Wed, 21 Aug 2024 15:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:37:45.632832
- Title: Interpretable Long-term Action Quality Assessment
- Title(参考訳): 解釈可能な長期的行動品質評価
- Authors: Xu Dong, Xinran Liu, Wanqing Li, Anthony Adeyemi-Ejeye, Andrew Gilbert,
- Abstract要約: 長時間の行動品質評価(AQA)は、ビデオにおける活動の実行を評価する。
現在のAQA法は、クリップの特徴を平均化することで単一のスコアを生成する。
長期的なビデオは、アクションの複雑さと多様性のために、さらなる困難を生じさせる。
- 参考スコア(独自算出の注目度): 12.343701556374556
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-term Action Quality Assessment (AQA) evaluates the execution of activities in videos. However, the length presents challenges in fine-grained interpretability, with current AQA methods typically producing a single score by averaging clip features, lacking detailed semantic meanings of individual clips. Long-term videos pose additional difficulty due to the complexity and diversity of actions, exacerbating interpretability challenges. While query-based transformer networks offer promising long-term modeling capabilities, their interpretability in AQA remains unsatisfactory due to a phenomenon we term Temporal Skipping, where the model skips self-attention layers to prevent output degradation. To address this, we propose an attention loss function and a query initialization method to enhance performance and interpretability. Additionally, we introduce a weight-score regression module designed to approximate the scoring patterns observed in human judgments and replace conventional single-score regression, improving the rationality of interpretability. Our approach achieves state-of-the-art results on three real-world, long-term AQA benchmarks. Our code is available at: https://github.com/dx199771/Interpretability-AQA
- Abstract(参考訳): 長時間の行動品質評価(AQA)は、ビデオにおける活動の実行を評価する。
しかし、この長さは細かな解釈可能性の課題を示しており、現在のAQA法では、個々のクリップの詳細な意味を欠き、平均的なクリップ特徴によって単一のスコアを生成するのが一般的である。
長期的なビデオは、複雑なアクションと多様性のためにさらなる困難を伴い、解釈可能性の課題が悪化する。
クエリベースのトランスフォーマーネットワークは、有望な長期モデリング機能を提供するが、AQAにおける解釈性は、時間的スキッピング(Temporal Skipping)と呼ばれる現象により不満足であり、モデルが自己保持層をスキップして出力劣化を防止している。
そこで本研究では,注意損失関数とクエリ初期化手法を提案し,性能と解釈可能性を向上させる。
さらに、人間の判断で観察されるスコアパターンを近似し、従来の単スコア回帰を置き換え、解釈可能性の合理性を向上させるために、重み付け回帰モジュールを導入する。
提案手法は,3つの実世界,長期AQAベンチマークの最先端結果を実現する。
私たちのコードは、https://github.com/dx 199771/Interpretability-AQAで利用可能です。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Multi-Stage Contrastive Regression for Action Quality Assessment [31.763380011104015]
本稿では,アクション品質評価(AQA)タスクのためのMCoRe(Multi-stage Contrastive Regression)フレームワークを提案する。
グラフのコントラスト学習にヒントを得て,新たな段階的コントラスト学習損失関数を提案する。
MCoReは、広く採用されている詳細なAQAデータセット上で、最先端の結果を実証している。
論文 参考訳(メタデータ) (2024-01-05T14:48:19Z) - Sensitivity Analysis of RF+clust for Leave-one-problem-out Performance
Prediction [0.7046417074932257]
LOPO(Left-one-problem-out)パフォーマンス予測では、機械学習(ML)モデルを使用して、アルゴリズムのパフォーマンスを一連のトレーニング問題から、これまで見つからなかった問題に推定する。
近年の研究では、テスト問題に類似したトレーニング問題に対するアルゴリズムの性能の重み付け平均による標準ランダムフォレスト(RF)性能回帰モデルの拡張が提案されている。
ここでは、性能回帰のための特徴の重要性を考慮し、距離ベース重みを調整することにより、RF+クラストアプローチを拡張した。
論文 参考訳(メタデータ) (2023-05-30T19:31:31Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Norm-in-Norm Loss with Faster Convergence and Better Performance for
Image Quality Assessment [20.288424566444224]
画像品質評価(IQA)モデルにおける損失関数の設計における正規化について検討する。
結果として生じるNorm-in-Normの損失は、主観的品質スコアに対する線形予測をIQAモデルに促す。
2つの関連するデータセットの実験では、MAEやMSEの損失と比較して、新しい損失はIQAモデルを約10倍の速度で収束させることが示されている。
論文 参考訳(メタデータ) (2020-08-10T04:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。