論文の概要: REVEX: A Unified Framework for Removal-Based Explainable Artificial Intelligence in Video
- arxiv url: http://arxiv.org/abs/2401.11796v2
- Date: Tue, 12 Nov 2024 14:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:07.301332
- Title: REVEX: A Unified Framework for Removal-Based Explainable Artificial Intelligence in Video
- Title(参考訳): REVEX: ビデオの削除に基づく説明可能な人工知能のための統一フレームワーク
- Authors: F. Xavier Gaya-Morey, Jose M. Buades-Rubio, I. Scott MacKenzie, Cristina Manresa-Yee,
- Abstract要約: この研究は、コンピュータビジョンデータのためのきめ細かい説明フレームワークを拡張している。
我々は,時間的情報と局所的な説明を加えることで,既存の6つの手法をビデオに適用する。
適応された手法は、ネットワーク、データセット、画像クラス、評価メトリクスにまたがって評価された。
- 参考スコア(独自算出の注目度): 4.962316236417776
- License:
- Abstract: We developed REVEX, a removal-based video explanations framework. This work extends fine-grained explanation frameworks for computer vision data and adapts six existing techniques to video by adding temporal information and local explanations. The adapted methods were evaluated across networks, datasets, image classes, and evaluation metrics. By decomposing explanation into steps, strengths and weaknesses were revealed in the studied methods, for example, on pixel clustering and perturbations in the input. Video LIME outperformed other methods with deletion values up to 31\% lower and insertion up to 30\% higher, depending on method and network. Video RISE achieved superior performance in the average drop metric, with values 10\% lower. In contrast, localization-based metrics revealed low performance across all methods, with significant variation depending on network. Pointing game accuracy reached 53\%, and IoU-based metrics remained below 20\%. Drawing on the findings across XAI methods, we further examine the limitations of the employed XAI evaluation metrics and highlight their suitability in different applications.
- Abstract(参考訳): 削除型ビデオ説明フレームワークREVEXを開発した。
この研究は、コンピュータビジョンデータのためのきめ細かい説明フレームワークを拡張し、時間的情報や局所的な説明を加えることで、既存の6つのテクニックをビデオに適用する。
適応された手法は、ネットワーク、データセット、画像クラス、評価メトリクスにまたがって評価された。
ステップに分解することで、例えば、入力中の画素クラスタリングや摂動について、研究手法で強みと弱みが明らかになった。
ビデオLIMEは、削除値が最大31\%、挿入値が最大30\%の他の方法よりも優れており、メソッドやネットワークに依存している。
ビデオRISEは平均落差測定値において10倍の値で優れた性能を示した。
対照的に、ローカライゼーションベースのメトリクスは、すべてのメソッドで低い性能を示し、ネットワークによって大きく異なる。
ポイントゲーム精度は53\%に達し、IoUベースの指標は20\%未満にとどまった。
本研究は,XAI の手法にまたがる知見に基づいて,採用した XAI 評価指標の限界を更に検討し,その適合性を異なるアプリケーションで明らかにする。
関連論文リスト
- CNN-based explanation ensembling for dataset, representation and explanations evaluation [1.1060425537315088]
畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。
実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするために、説明を組み合わせることの意味を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-04-16T08:39:29Z) - AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2024-03-18T07:41:19Z) - Explainability for Machine Learning Models: From Data Adaptability to
User Perception [0.8702432681310401]
この論文は、すでにデプロイされた機械学習モデルに対する局所的な説明の生成を探求する。
データとユーザ要件の両方を考慮して、意味のある説明を生み出すための最適な条件を特定することを目的としている。
論文 参考訳(メタデータ) (2024-02-16T18:44:37Z) - A Hierarchical Graph-based Approach for Recognition and Description
Generation of Bimanual Actions in Videos [3.7486111821201287]
本研究では,階層型階層型アテンション機構とグラフベースモデリングを統合した新しい手法について述べる。
このアプローチの複雑さは、複数の2Dデータセットと3Dデータセットを使って経験的にテストされています。
論文 参考訳(メタデータ) (2023-10-01T13:45:48Z) - What and How of Machine Learning Transparency: Building Bespoke
Explainability Tools with Interoperable Algorithmic Components [77.87794937143511]
本稿では,データ駆動予測モデルを説明するためのハンズオントレーニング教材について紹介する。
これらのリソースは、解釈可能な表現合成、データサンプリング、説明生成の3つのコアビルディングブロックをカバーする。
論文 参考訳(メタデータ) (2022-09-08T13:33:25Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Explaining Motion Relevance for Activity Recognition in Video Deep
Learning Models [12.807049446839507]
動作認識タスクにおける3次元畳み込みニューラルネットワークモデルの解釈可能性に、説明可能性技術の小さなサブセットが適用されている。
本研究では,2次元説明手法を応用し,動作特異的な説明を提供するための選択的関連性手法を提案する。
提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。
論文 参考訳(メタデータ) (2020-03-31T15:19:04Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。