論文の概要: REVEX: A Unified Framework for Removal-Based Explainable Artificial Intelligence in Video
- arxiv url: http://arxiv.org/abs/2401.11796v2
- Date: Tue, 12 Nov 2024 14:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:07.301332
- Title: REVEX: A Unified Framework for Removal-Based Explainable Artificial Intelligence in Video
- Title(参考訳): REVEX: ビデオの削除に基づく説明可能な人工知能のための統一フレームワーク
- Authors: F. Xavier Gaya-Morey, Jose M. Buades-Rubio, I. Scott MacKenzie, Cristina Manresa-Yee,
- Abstract要約: この研究は、コンピュータビジョンデータのためのきめ細かい説明フレームワークを拡張している。
我々は,時間的情報と局所的な説明を加えることで,既存の6つの手法をビデオに適用する。
適応された手法は、ネットワーク、データセット、画像クラス、評価メトリクスにまたがって評価された。
- 参考スコア(独自算出の注目度): 4.962316236417776
- License:
- Abstract: We developed REVEX, a removal-based video explanations framework. This work extends fine-grained explanation frameworks for computer vision data and adapts six existing techniques to video by adding temporal information and local explanations. The adapted methods were evaluated across networks, datasets, image classes, and evaluation metrics. By decomposing explanation into steps, strengths and weaknesses were revealed in the studied methods, for example, on pixel clustering and perturbations in the input. Video LIME outperformed other methods with deletion values up to 31\% lower and insertion up to 30\% higher, depending on method and network. Video RISE achieved superior performance in the average drop metric, with values 10\% lower. In contrast, localization-based metrics revealed low performance across all methods, with significant variation depending on network. Pointing game accuracy reached 53\%, and IoU-based metrics remained below 20\%. Drawing on the findings across XAI methods, we further examine the limitations of the employed XAI evaluation metrics and highlight their suitability in different applications.
- Abstract(参考訳): 削除型ビデオ説明フレームワークREVEXを開発した。
この研究は、コンピュータビジョンデータのためのきめ細かい説明フレームワークを拡張し、時間的情報や局所的な説明を加えることで、既存の6つのテクニックをビデオに適用する。
適応された手法は、ネットワーク、データセット、画像クラス、評価メトリクスにまたがって評価された。
ステップに分解することで、例えば、入力中の画素クラスタリングや摂動について、研究手法で強みと弱みが明らかになった。
ビデオLIMEは、削除値が最大31\%、挿入値が最大30\%の他の方法よりも優れており、メソッドやネットワークに依存している。
ビデオRISEは平均落差測定値において10倍の値で優れた性能を示した。
対照的に、ローカライゼーションベースのメトリクスは、すべてのメソッドで低い性能を示し、ネットワークによって大きく異なる。
ポイントゲーム精度は53\%に達し、IoUベースの指標は20\%未満にとどまった。
本研究は,XAI の手法にまたがる知見に基づいて,採用した XAI 評価指標の限界を更に検討し,その適合性を異なるアプリケーションで明らかにする。
関連論文リスト
- Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics [10.045644410833402]
LATECは、20の異なる指標を用いて17の顕著なXAI手法を批判的に評価する大規模なベンチマークである。
信頼性の低いランキングに繋がるメトリクスの衝突リスクを実証し、その結果、より堅牢な評価手法を提案する。
LATECは将来のXAI研究における役割を強化し、326kのサリエンシマップと378kのメトリクススコアを(メタ評価)データセットとして公開している。
論文 参考訳(メタデータ) (2024-09-25T09:07:46Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。
実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-08-06T17:03:32Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation [104.40114562948428]
教師なしドメイン適応(UDA)では、ソースデータ(例えば、合成)に基づいて訓練されたモデルは、ターゲットアノテーションにアクセスすることなく、ターゲットデータ(例えば、現実世界)に適応する。
本研究では,対象領域の空間的コンテキスト関係を学習し,UDAを向上するMasked Image Consistency (MIC)モジュールを提案する。
MICは、合成からリアルタイム、日夜、クリア・ツー・リバース・ウェザーUDAの様々な認識タスクにおいて、最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-02T17:29:32Z) - Efficient Deep Visual and Inertial Odometry with Adaptive Visual
Modality Selection [12.754974372231647]
本稿では,適応型深層学習に基づくVIO手法を提案する。
Gumbel-Softmax のトリックを用いてポリシーネットワークをトレーニングし、エンドツーエンドのシステムトレーニングで決定プロセスを差別化できるようにする。
実験結果から,本手法は全モードベースラインと同じような,あるいはさらに優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-12T16:17:49Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video
Inpainting [43.90848669491335]
2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークの診断評価を提案する。
私たちの挑戦的なベンチマークは、ビデオインペインティングメソッドをより洞察に富んだ分析を可能にし、この分野の診断ツールとして役立ちます。
論文 参考訳(メタデータ) (2021-05-11T20:13:53Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。