論文の概要: Explainable Action Form Assessment by Exploiting Multimodal Chain-of-Thoughts Reasoning
- arxiv url: http://arxiv.org/abs/2512.15153v1
- Date: Wed, 17 Dec 2025 07:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.890976
- Title: Explainable Action Form Assessment by Exploiting Multimodal Chain-of-Thoughts Reasoning
- Title(参考訳): マルチモーダル・チェーン・オブ・ソート・推論による説明可能な行動形態評価
- Authors: Mengshi Qi, Yeteng Wu, Xianlin Zhang, Huadong Ma,
- Abstract要約: 我々は、新しいヒューマンアクションフォームアセスメントタスクを定義し、新しい多様なデータセットCoT-AFAを導入する。
我々はCoT-AFAデータセットを新しいChain-of-Thought説明パラダイムで強化する。
提案するフレームワークはExplainable Fitness Assessorで,アクションを判断するだけでなく,理由を説明し,解決策を提供する。
- 参考スコア(独自算出の注目度): 45.80546806373221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating whether human action is standard or not and providing reasonable feedback to improve action standardization is very crucial but challenging in real-world scenarios. However, current video understanding methods are mainly concerned with what and where the action is, which is unable to meet the requirements. Meanwhile, most of the existing datasets lack the labels indicating the degree of action standardization, and the action quality assessment datasets lack explainability and detailed feedback. Therefore, we define a new Human Action Form Assessment (AFA) task, and introduce a new diverse dataset CoT-AFA, which contains a large scale of fitness and martial arts videos with multi-level annotations for comprehensive video analysis. We enrich the CoT-AFA dataset with a novel Chain-of-Thought explanation paradigm. Instead of offering isolated feedback, our explanations provide a complete reasoning process--from identifying an action step to analyzing its outcome and proposing a concrete solution. Furthermore, we propose a framework named Explainable Fitness Assessor, which can not only judge an action but also explain why and provide a solution. This framework employs two parallel processing streams and a dynamic gating mechanism to fuse visual and semantic information, thereby boosting its analytical capabilities. The experimental results demonstrate that our method has achieved improvements in explanation generation (e.g., +16.0% in CIDEr), action classification (+2.7% in accuracy) and quality assessment (+2.1% in accuracy), revealing great potential of CoT-AFA for future studies. Our dataset and source code is available at https://github.com/MICLAB-BUPT/EFA.
- Abstract(参考訳): 人間の行動が標準であるかどうかを評価し、アクションの標準化を改善するための適切なフィードバックを提供することは、現実のシナリオでは極めて重要であるが、難しい。
しかし,現在の映像理解手法は,要求を満たすことができない動作の場所や場所を主に意識している。
一方、既存のデータセットにはアクション標準化の度合いを示すラベルがなく、アクション品質評価データセットには説明可能性や詳細なフィードバックがない。
そこで、我々は、新しいヒューマンアクションフォームアセスメント(AFA)タスクを定義し、多様なデータセットであるCoT-AFAを導入する。
我々はCoT-AFAデータセットを新しいChain-of-Thought説明パラダイムで強化する。
私たちの説明では、独立したフィードバックを提供する代わりに、アクションステップの特定から結果の分析、具体的なソリューションの提案に至るまで、完全な推論プロセスを提供します。
さらに,アクションを判断するだけでなく,理由を説明し,解決策を提供することのできるExplainable Fitness Assessorというフレームワークを提案する。
このフレームワークは2つの並列処理ストリームと動的ゲーティング機構を使用して視覚情報と意味情報を融合し、解析能力を向上する。
実験の結果,提案手法は説明生成(CIDErでは+16.0%),行動分類(+2.7%),品質評価(+2.1%)の改善を達成し,今後の研究におけるCoT-AFAの可能性を明らかにした。
データセットとソースコードはhttps://github.com/MICLAB-BUPT/EFA.comで公開されています。
関連論文リスト
- HieroAction: Hierarchically Guided VLM for Fine-Grained Action Analysis [33.807258169748465]
HieroActionは人間の行動の正確で構造化された評価を提供する視覚言語モデルである。
推論経路は評価プロセスを構成し、ポリシー学習は報酬に基づく最適化を通じて各ステージを洗練する。
これらの統合によって、複数のベンチマークデータセットで優れたパフォーマンスが示すように、正確で解釈可能なアセスメントが保証される。
論文 参考訳(メタデータ) (2025-08-23T08:19:27Z) - Combining Abstract Argumentation and Machine Learning for Efficiently Analyzing Low-Level Process Event Streams [18.821902752237204]
本稿では,解釈問題に対するデータ/計算効率のよいニューロシンボリックアプローチを提案する。
グリーンAIソリューションの急激な開発の必要性を考えると,この問題に対するデータ/計算効率の高いニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-09T08:45:07Z) - Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [46.25518274714238]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。
現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。
階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T10:20:16Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Unveiling the Unseen: A Comprehensive Survey on Explainable Anomaly Detection in Images and Videos [49.07140708026425]
画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習や現実世界のアプリケーションにおいて不可欠である。
本稿では,説明可能な2次元視覚異常検出(X-VAD)に焦点を当てた初の包括的調査を行う。
本稿では,その基礎技術によって分類された説明可能な手法の文献レビューを行う。
我々は、将来的な方向性と、説明品質の定量化を含むオープンな問題について議論する。
論文 参考訳(メタデータ) (2023-02-13T20:17:41Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文 参考訳(メタデータ) (2020-07-29T02:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。