論文の概要: Local Agnostic Video Explanations: a Study on the Applicability of
Removal-Based Explanations to Video
- arxiv url: http://arxiv.org/abs/2401.11796v1
- Date: Mon, 22 Jan 2024 09:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:50:23.604470
- Title: Local Agnostic Video Explanations: a Study on the Applicability of
Removal-Based Explanations to Video
- Title(参考訳): 局所無依存ビデオ解説:ビデオに対する削除に基づく説明の適用性に関する研究
- Authors: F. Xavier Gaya-Morey, Jose M. Buades-Rubio, Cristina Manresa-Yee
- Abstract要約: ビデオ領域における局所的な説明のための統一的なフレームワークを提案する。
コントリビューションには,(1)コンピュータビジョンデータに適したきめ細かい説明フレームワークの拡張,(2)既存の6つの説明手法をビデオデータに適応させること,(3)適応された説明手法の評価と比較を行う。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable artificial intelligence techniques are becoming increasingly
important with the rise of deep learning applications in various domains. These
techniques aim to provide a better understanding of complex "black box" models
and enhance user trust while maintaining high learning performance. While many
studies have focused on explaining deep learning models in computer vision for
image input, video explanations remain relatively unexplored due to the
temporal dimension's complexity. In this paper, we present a unified framework
for local agnostic explanations in the video domain. Our contributions include:
(1) Extending a fine-grained explanation framework tailored for computer vision
data, (2) Adapting six existing explanation techniques to work on video data by
incorporating temporal information and enabling local explanations, and (3)
Conducting an evaluation and comparison of the adapted explanation methods
using different models and datasets. We discuss the possibilities and choices
involved in the removal-based explanation process for visual data. The
adaptation of six explanation methods for video is explained, with comparisons
to existing approaches. We evaluate the performance of the methods using
automated metrics and user-based evaluation, showing that 3D RISE, 3D LIME, and
3D Kernel SHAP outperform other methods. By decomposing the explanation process
into manageable steps, we facilitate the study of each choice's impact and
allow for further refinement of explanation methods to suit specific datasets
and models.
- Abstract(参考訳): さまざまな領域におけるディープラーニングアプリケーションの増加に伴い、説明可能な人工知能技術がますます重要になっている。
これらの技術は、複雑な「ブラックボックス」モデルの理解を深め、高い学習性能を維持しながらユーザーの信頼を高めることを目的としている。
多くの研究では、画像入力のためのコンピュータビジョンにおけるディープラーニングモデルの説明に焦点が当てられているが、ビデオの説明は時間次元の複雑さのために比較的未解明のままである。
本稿では,ビデオ領域における局所的無依存な説明のための統一フレームワークを提案する。
1)コンピュータビジョンデータ用に調整された細かな説明フレームワークを拡張すること,(2)時間情報を取り込んでビデオデータに取り組むために既存の6つの説明手法を適用すること,(3)異なるモデルとデータセットを用いた適応説明手法の評価と比較を行うことである。
視覚データの除去に基づく説明プロセスにおける可能性と選択について論じる。
ビデオに対する6つの説明手法の適応について,既存手法との比較を行った。
本研究では,自動計測とユーザベース評価を用いて,3drise,3d lime,3d kernel shapが他の手法よりも優れていることを示す。
説明プロセスを管理可能なステップに分解することにより,各選択の影響の研究が容易になり,特定のデータセットやモデルに適合する説明方法をさらに洗練することができる。
関連論文リスト
- Explainability for Machine Learning Models: From Data Adaptability to
User Perception [0.8702432681310401]
この論文は、すでにデプロイされた機械学習モデルに対する局所的な説明の生成を探求する。
データとユーザ要件の両方を考慮して、意味のある説明を生み出すための最適な条件を特定することを目的としている。
論文 参考訳(メタデータ) (2024-02-16T18:44:37Z) - A Hierarchical Graph-based Approach for Recognition and Description
Generation of Bimanual Actions in Videos [3.7486111821201287]
本研究では,階層型階層型アテンション機構とグラフベースモデリングを統合した新しい手法について述べる。
このアプローチの複雑さは、複数の2Dデータセットと3Dデータセットを使って経験的にテストされています。
論文 参考訳(メタデータ) (2023-10-01T13:45:48Z) - What and How of Machine Learning Transparency: Building Bespoke
Explainability Tools with Interoperable Algorithmic Components [77.87794937143511]
本稿では,データ駆動予測モデルを説明するためのハンズオントレーニング教材について紹介する。
これらのリソースは、解釈可能な表現合成、データサンプリング、説明生成の3つのコアビルディングブロックをカバーする。
論文 参考訳(メタデータ) (2022-09-08T13:33:25Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Explaining Motion Relevance for Activity Recognition in Video Deep
Learning Models [12.807049446839507]
動作認識タスクにおける3次元畳み込みニューラルネットワークモデルの解釈可能性に、説明可能性技術の小さなサブセットが適用されている。
本研究では,2次元説明手法を応用し,動作特異的な説明を提供するための選択的関連性手法を提案する。
提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。
論文 参考訳(メタデータ) (2020-03-31T15:19:04Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。