論文の概要: PCBEAR: Pose Concept Bottleneck for Explainable Action Recognition
- arxiv url: http://arxiv.org/abs/2504.13140v1
- Date: Thu, 17 Apr 2025 17:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:35.740698
- Title: PCBEAR: Pose Concept Bottleneck for Explainable Action Recognition
- Title(参考訳): PCBEAR: 説明可能なアクション認識のためのポケットコンセプトボツネック
- Authors: Jongseo Lee, Wooil Lee, Gyeong-Moon Park, Seong Tae Kim, Jinwoo Choi,
- Abstract要約: 説明可能な行動認識(PCBEAR)のためのPose Concept Bottleneckを提案する。
PCBEARは、ビデオアクション認識のためのモーションアウェアな構造化概念として、人間のポーズシーケンスを導入している。
提案手法は,モデル推論プロセスに対する強い予測性能と人間の理解可能な洞察の両方を提供する。
- 参考スコア(独自算出の注目度): 9.179016800487506
- License:
- Abstract: Human action recognition (HAR) has achieved impressive results with deep learning models, but their decision-making process remains opaque due to their black-box nature. Ensuring interpretability is crucial, especially for real-world applications requiring transparency and accountability. Existing video XAI methods primarily rely on feature attribution or static textual concepts, both of which struggle to capture motion dynamics and temporal dependencies essential for action understanding. To address these challenges, we propose Pose Concept Bottleneck for Explainable Action Recognition (PCBEAR), a novel concept bottleneck framework that introduces human pose sequences as motion-aware, structured concepts for video action recognition. Unlike methods based on pixel-level features or static textual descriptions, PCBEAR leverages human skeleton poses, which focus solely on body movements, providing robust and interpretable explanations of motion dynamics. We define two types of pose-based concepts: static pose concepts for spatial configurations at individual frames, and dynamic pose concepts for motion patterns across multiple frames. To construct these concepts, PCBEAR applies clustering to video pose sequences, allowing for automatic discovery of meaningful concepts without manual annotation. We validate PCBEAR on KTH, Penn-Action, and HAA500, showing that it achieves high classification performance while offering interpretable, motion-driven explanations. Our method provides both strong predictive performance and human-understandable insights into the model's reasoning process, enabling test-time interventions for debugging and improving model behavior.
- Abstract(参考訳): 人間の行動認識(HAR)は、ディープラーニングモデルで印象的な結果を得たが、そのブラックボックスの性質のため、意思決定プロセスは不透明である。
特に透明性と説明責任を必要とする現実世界のアプリケーションでは、解釈可能性を保証することが重要です。
既存のビデオXAI手法は主に特徴属性や静的テキストの概念に依存しており、どちらも動作のダイナミクスと行動理解に不可欠な時間的依存を捉えるのに苦労している。
これらの課題に対処するために、ビデオアクション認識のための構造化概念として人間のポーズシーケンスを導入した新しい概念ボトルネックフレームワーク、PCBEAR(Pose Concept Bottleneck for Explainable Action Recognition)を提案する。
ピクセルレベルの特徴や静的なテキスト記述に基づく手法とは異なり、PCBEARは人間の骨格のポーズを利用する。
本研究では,各フレームにおける空間構成のための静的ポーズ概念と,複数のフレームにまたがる動きパターンのための動的ポーズ概念の2つのタイプのポーズベース概念を定義する。
これらの概念を構築するために、PCBEARはビデオポーズシーケンスにクラスタリングを適用し、手動のアノテーションなしで意味のある概念を自動的に発見することができる。
我々はPCBEARをKTH, Penn-Action, HAA500上で検証し, 解釈可能な動作駆動型説明を提供しながら高い分類性能が得られることを示した。
提案手法は,モデル推論プロセスに対する強い予測性能と人間の理解可能な洞察の両方を提供し,モデル動作のデバッグと改善のためのテスト時間介入を可能にする。
関連論文リスト
- Dynamic Concepts Personalization from Single Videos [92.62863918003575]
動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
論文 参考訳(メタデータ) (2025-02-20T18:53:39Z) - Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space [14.188708813577456]
我々は、概念空間と呼ばれるフレームワークを介してモデルの学習力学を分析します。
概念空間におけるモデルの学習力学の方向を,突然回転する瞬間を観察する。
驚くべきことに、これらの点は隠蔽能力の出現と正確に一致している。
論文 参考訳(メタデータ) (2024-06-27T17:50:05Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Exploring Explainability in Video Action Recognition [5.7782784592048575]
ビデオ行動認識と画像分類はコンピュータビジョンの基本課題である。
Video-TCAVは、ビデオ行動認識モデルの意思決定プロセスにおいて、特定の概念の重要性を定量化することを目的としている。
本稿では,ビデオ-TCAVテストにおいて,映像行動認識に関連する空間的・時間的概念を生成するための機械支援手法を提案する。
論文 参考訳(メタデータ) (2024-04-13T19:34:14Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。
この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - Static and Dynamic Concepts for Self-supervised Video Representation
Learning [70.15341866794303]
本稿では,自己教師付きビデオ表現学習のための新しい学習手法を提案する。
人間がビデオを理解する方法に触発され、まず一般的な視覚概念を学習し、ビデオ理解のための識別的地域への参加を提案する。
論文 参考訳(メタデータ) (2022-07-26T10:28:44Z) - Automatic Concept Extraction for Concept Bottleneck-based Video
Classification [58.11884357803544]
本稿では,概念に基づくビデオ分類に必要かつ十分な概念抽象セットを厳格に構成する概念発見抽出モジュールを提案する。
提案手法は,自然言語における概念概念の抽象概念を応用し,複雑なタスクに概念ボトルネック法を一般化する。
論文 参考訳(メタデータ) (2022-06-21T06:22:35Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z) - Explaining Motion Relevance for Activity Recognition in Video Deep
Learning Models [12.807049446839507]
動作認識タスクにおける3次元畳み込みニューラルネットワークモデルの解釈可能性に、説明可能性技術の小さなサブセットが適用されている。
本研究では,2次元説明手法を応用し,動作特異的な説明を提供するための選択的関連性手法を提案する。
提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。
論文 参考訳(メタデータ) (2020-03-31T15:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。