論文の概要: Concepts in Motion: Temporal Bottlenecks for Interpretable Video Classification
- arxiv url: http://arxiv.org/abs/2509.20899v1
- Date: Thu, 25 Sep 2025 08:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.793929
- Title: Concepts in Motion: Temporal Bottlenecks for Interpretable Video Classification
- Title(参考訳): 動作の概念:解釈可能なビデオ分類のための時間的ボトルネック
- Authors: Patrick Knab, Sascha Marton, Philipp J. Schubert, Drago Guggiana, Christian Bartelt,
- Abstract要約: MoTIFは、ビデオ分類のための概念ボトルネックフレームワークに適応するトランスフォーマーにインスパイアされたアーキテクチャ設計である。
我々のデザインは、ビデオ全体にわたるグローバルな概念の重要性、特定のウィンドウ内でのローカルな概念の関連性、時間の経過とともに概念の時間的依存という、3つの補完的な視点を可能にします。
- 参考スコア(独自算出の注目度): 10.376843346305112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conceptual models such as Concept Bottleneck Models (CBMs) have driven substantial progress in improving interpretability for image classification by leveraging human-interpretable concepts. However, extending these models from static images to sequences of images, such as video data, introduces a significant challenge due to the temporal dependencies inherent in videos, which are essential for capturing actions and events. In this work, we introduce MoTIF (Moving Temporal Interpretable Framework), an architectural design inspired by a transformer that adapts the concept bottleneck framework for video classification and handles sequences of arbitrary length. Within the video domain, concepts refer to semantic entities such as objects, attributes, or higher-level components (e.g., 'bow', 'mount', 'shoot') that reoccur across time - forming motifs collectively describing and explaining actions. Our design explicitly enables three complementary perspectives: global concept importance across the entire video, local concept relevance within specific windows, and temporal dependencies of a concept over time. Our results demonstrate that the concept-based modeling paradigm can be effectively transferred to video data, enabling a better understanding of concept contributions in temporal contexts while maintaining competitive performance. Code available at github.com/patrick-knab/MoTIF.
- Abstract(参考訳): 概念ボトルネックモデル (Concept Bottleneck Models, CBM) のような概念モデルは、人間の解釈可能な概念を活用することにより、画像分類の解釈可能性を向上させるために大きな進歩をもたらした。
しかし、これらのモデルを静的画像からビデオデータなどの画像のシーケンスに拡張することは、アクションやイベントをキャプチャするために不可欠なビデオ固有の時間的依存関係のために、大きな課題をもたらす。
本研究では,ビデオ分類のための概念ボトルネックフレームワークに適応し,任意の長さのシーケンスを処理するトランスフォーマーにインスパイアされたアーキテクチャ設計であるMoTIF(Moving Temporal Interpretable Framework)を紹介する。
ビデオドメイン内の概念は、オブジェクト、属性、あるいは、時間をかけて再起動する高レベルのコンポーネント(例:「ボー」、「マウント」、「ショット」)のような意味的エンティティを指し、アクションを集合的に記述し説明するモチーフを形成する。
我々のデザインは、ビデオ全体にわたるグローバルな概念の重要性、特定のウィンドウ内でのローカルな概念の関連性、時間の経過とともに概念の時間的依存という、3つの補完的な視点を可能にします。
本研究は,概念に基づくモデリングパラダイムを映像データに効果的に移行し,時間的文脈における概念貢献をよりよく理解し,競争性能を維持できることを示した。
github.com/patrick-knab/MoTIFで公開されている。
関連論文リスト
- SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - PCBEAR: Pose Concept Bottleneck for Explainable Action Recognition [9.179016800487506]
説明可能な行動認識(PCBEAR)のためのPose Concept Bottleneckを提案する。
PCBEARは、ビデオアクション認識のためのモーションアウェアな構造化概念として、人間のポーズシーケンスを導入している。
提案手法は,モデル推論プロセスに対する強い予測性能と人間の理解可能な洞察の両方を提供する。
論文 参考訳(メタデータ) (2025-04-17T17:50:07Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Understanding Video Transformers via Universal Concept Discovery [44.869479587300525]
我々は,自動で発見される高レベルな時間的概念に基づいて,トランスフォーマーの意思決定プロセスを説明する。
本稿では,VTCD(Video Transformer Concept Discovery)アルゴリズムについて紹介する。
結果として生じる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時間的推論機構とオブジェクト中心の表現を明らかにする。
論文 参考訳(メタデータ) (2024-01-19T17:27:21Z) - Automatic Concept Extraction for Concept Bottleneck-based Video
Classification [58.11884357803544]
本稿では,概念に基づくビデオ分類に必要かつ十分な概念抽象セットを厳格に構成する概念発見抽出モジュールを提案する。
提案手法は,自然言語における概念概念の抽象概念を応用し,複雑なタスクに概念ボトルネック法を一般化する。
論文 参考訳(メタデータ) (2022-06-21T06:22:35Z) - Modeling Temporal Concept Receptive Field Dynamically for Untrimmed
Video Analysis [105.06166692486674]
本稿では,概念に基づくイベント表現の時間的概念受容分野について考察する。
時間的動的畳み込み(TDC)を導入し、概念に基づくイベント分析をより柔軟にする。
異なる係数は、入力ビデオに応じて適切な時間的概念受容フィールドサイズを生成することができる。
論文 参考訳(メタデータ) (2021-11-23T04:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。