論文の概要: Hierarchical NeuroSymbolic Approach for Comprehensive and Explainable Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2403.13798v2
- Date: Fri, 24 May 2024 17:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 20:46:55.333152
- Title: Hierarchical NeuroSymbolic Approach for Comprehensive and Explainable Action Quality Assessment
- Title(参考訳): 包括的・説明可能な行動品質評価のための階層型ニューロシンボリックアプローチ
- Authors: Lauren Okamoto, Paritosh Parmar,
- Abstract要約: 行動品質評価(AQA)は、人間の行動のパフォーマンスや実行を定量的に評価するためにコンピュータビジョンを適用する。
現在のアプローチはエンドツーエンドのニューラルモデルで、透明性が欠如し、主観的な人間の判断を地道として訓練する傾向がある。
本稿では、ニューラルネットワークを用いてビデオデータから解釈可能なシンボルを抽象化し、それらのシンボルに規則を適用することによって品質評価を行う、AQAのためのニューロシンボリックパラダイムを提案する。
- 参考スコア(独自算出の注目度): 2.4554686192257424
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action quality assessment (AQA) applies computer vision to quantitatively assess the performance or execution of a human action. Current AQA approaches are end-to-end neural models, which lack transparency and tend to be biased because they are trained on subjective human judgements as ground-truth. To address these issues, we introduce a neuro-symbolic paradigm for AQA, which uses neural networks to abstract interpretable symbols from video data and makes quality assessments by applying rules to those symbols. We take diving as the case study. We found that domain experts prefer our system and find it more informative than purely neural approaches to AQA in diving. Our system also achieves state-of-the-art action recognition and temporal segmentation, and automatically generates a detailed report that breaks the dive down into its elements and provides objective scoring with visual evidence. As verified by a group of domain experts, this report may be used to assist judges in scoring, help train judges, and provide feedback to divers. Annotated training data and code: https://github.com/laurenok24/NSAQA.
- Abstract(参考訳): 行動品質評価(AQA)は、人間の行動のパフォーマンスや実行を定量的に評価するためにコンピュータビジョンを適用する。
現在のAQAアプローチはエンドツーエンドのニューラルモデルであり、透明性が欠如しており、主観的な人間の判断を地道として訓練されているためバイアスを受ける傾向がある。
これらの問題に対処するために、ニューラルネットワークを用いてビデオデータから解釈可能なシンボルを抽象化し、それらのシンボルに規則を適用することによって品質評価を行うAQAのニューロシンボリックパラダイムを導入する。
私たちはケーススタディとしてダイビングを取ります。
ドメインの専門家は、私たちのシステムを好み、ダイビングにおけるAQAに対する純粋に神経的なアプローチよりも、より情報に富むものを見つけました。
また,現状の行動認識と時間的セグメンテーションを実現し,その要素を分割し,視覚的証拠を客観的に評価する詳細なレポートを自動生成する。
ドメインの専門家グループが検証したように、このレポートは審査員のスコアリングを支援し、審査員を訓練し、ダイバーにフィードバックを提供するために使われるかもしれない。
注釈付きトレーニングデータとコード:https://github.com/laurenok24/NSAQA。
関連論文リスト
- Bridging the Gap Between Saliency Prediction and Image Quality Assessment [0.0]
深部神経モデルでは画像品質評価(IQA)が大幅に進歩している
我々はIQAとSaliency Predictionタスクの関係を明らかにする実証的研究を行った。
本稿では,サリエンシ対応圧縮画像の新たなSACIDデータセットを導入し,従来のIQA法とニューラルベースIQA法の大規模比較を行う。
論文 参考訳(メタデータ) (2024-05-08T12:04:43Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Perceptual Attacks of No-Reference Image Quality Models with
Human-in-the-Loop [113.75573175709573]
NR-IQAモデルの知覚的堅牢性を調べるための最初の試みの1つを行う。
我々は,4つの完全参照IQAモデルの下で,知識駆動のNR-IQA法とデータ駆動のNR-IQA法を検証した。
4つのNR-IQAモデルは全て、提案した知覚的攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2022-10-03T13:47:16Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Ground Truth Evaluation of Neural Network Explanations with CLEVR-XAI [12.680653816836541]
我々は,CLEVR視覚質問応答タスクに基づくXAI手法の基盤的真理に基づく評価フレームワークを提案する。
本フレームワークは,(1)選択的,(2)制御,(3)リアルなテストベッドをニューラルネットワークの説明評価のために提供する。
論文 参考訳(メタデータ) (2020-03-16T14:43:33Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。