論文の概要: Disentangled Concepts Speak Louder Than Words:Explainable Video Action Recognition
- arxiv url: http://arxiv.org/abs/2511.03725v1
- Date: Wed, 05 Nov 2025 18:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.52528
- Title: Disentangled Concepts Speak Louder Than Words:Explainable Video Action Recognition
- Title(参考訳): 単語よりも大声で話す遠方的概念:説明可能なビデオ行動認識
- Authors: Jongseo Lee, Wooil Lee, Gyeong-Moon Park, Seong Tae Kim, Jinwoo Choi,
- Abstract要約: 本稿では,Disentangled Action aNd Context の概念に基づく Explainable (DANCE) ビデオアクション認識を提案する。
DANCEは、アンタングルされたコンセプトタイプ(モーションダイナミクス、オブジェクト、シーン)を通じてアクションを予測する。
4つのデータセットの実験により、DANCEは競合性能で説明の明確さを大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 22.38060746037401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective explanations of video action recognition models should disentangle how movements unfold over time from the surrounding spatial context. However, existing methods based on saliency produce entangled explanations, making it unclear whether predictions rely on motion or spatial context. Language-based approaches offer structure but often fail to explain motions due to their tacit nature -- intuitively understood but difficult to verbalize. To address these challenges, we propose Disentangled Action aNd Context concept-based Explainable (DANCE) video action recognition, a framework that predicts actions through disentangled concept types: motion dynamics, objects, and scenes. We define motion dynamics concepts as human pose sequences. We employ a large language model to automatically extract object and scene concepts. Built on an ante-hoc concept bottleneck design, DANCE enforces prediction through these concepts. Experiments on four datasets -- KTH, Penn Action, HAA500, and UCF-101 -- demonstrate that DANCE significantly improves explanation clarity with competitive performance. We validate the superior interpretability of DANCE through a user study. Experimental results also show that DANCE is beneficial for model debugging, editing, and failure analysis.
- Abstract(参考訳): 映像行動認識モデルの効果的な説明は、周囲の空間的文脈から時間とともにどのように動きが広がるかを切り離す必要がある。
しかし,既存のサリエンシに基づく手法では絡み合った説明が得られており,予測が動きや空間的文脈に依存しているかどうかは不明である。
言語ベースのアプローチは構造を提供するが、しばしばその暗黙的な性質から動作を説明するのに失敗する。
これらの課題に対処するために、Dance(Disentangled Action aNd Context)の概念に基づくDANCE(Explainable Video Action Recognition)を提案する。
我々は、モーションダイナミクスの概念を人間のポーズシーケンスとして定義する。
我々は、オブジェクトやシーンの概念を自動的に抽出するために、大きな言語モデルを採用している。
アンテホックなコンセプトのボトルネック設計に基づいて構築されたDANCEは、これらの概念を通じて予測を実行する。
KTH、Penn Action、HAA500、UCF-101の4つのデータセットに関する実験は、DANCEが競合パフォーマンスによる説明の明確性を大幅に改善していることを示している。
ユーザによるDANCEの優れた解釈可能性を検証する。
実験の結果、DANCEはモデルデバッギング、編集、障害解析に有用であることが示された。
関連論文リスト
- PCBEAR: Pose Concept Bottleneck for Explainable Action Recognition [9.179016800487506]
説明可能な行動認識(PCBEAR)のためのPose Concept Bottleneckを提案する。
PCBEARは、ビデオアクション認識のためのモーションアウェアな構造化概念として、人間のポーズシーケンスを導入している。
提案手法は,モデル推論プロセスに対する強い予測性能と人間の理解可能な洞察の両方を提供する。
論文 参考訳(メタデータ) (2025-04-17T17:50:07Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation [27.690736225683825]
動作推論を視覚合成から明確に分離する2段階のフレームワークであるMotion Dreamerを紹介する。
提案手法では,部分的ユーザ定義動作の効果的な統合を可能にするスパース・ツー・デンス動作表現であるインスタンスフローを導入している。
実験により、モーションドリーマーは既存の手法よりも優れており、より優れた動きの可視性と視覚的リアリズムを実現していることが示された。
論文 参考訳(メタデータ) (2024-11-30T17:40:49Z) - HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases [59.32509533292653]
動作理解は、動作意味論と行動意味論の信頼性の高いマッピングを確立することを目的としている。
本研究では,人間の動作の客観的な運動事実を適切な抽象化,解釈可能性,一般性で捉えたキネマティック・フェース(KP)を提案する。
KPに基づいて、動作知識ベースを統一し、動作理解システムを構築することができる。
論文 参考訳(メタデータ) (2023-10-06T12:08:15Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。