Fugu-MT 論文翻訳(概要): Local Agnostic Video Explanations: a Study on the Applicability of Removal-Based Explanations to Video

論文の概要: Local Agnostic Video Explanations: a Study on the Applicability of Removal-Based Explanations to Video

arxiv url: http://arxiv.org/abs/2401.11796v1
Date: Mon, 22 Jan 2024 09:53:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 14:50:23.604470
Title: Local Agnostic Video Explanations: a Study on the Applicability of Removal-Based Explanations to Video
Title（参考訳）: 局所無依存ビデオ解説:ビデオに対する削除に基づく説明の適用性に関する研究
Authors: F. Xavier Gaya-Morey, Jose M. Buades-Rubio, Cristina Manresa-Yee
Abstract要約: ビデオ領域における局所的な説明のための統一的なフレームワークを提案する。コントリビューションには,(1)コンピュータビジョンデータに適したきめ細かい説明フレームワークの拡張,(2)既存の6つの説明手法をビデオデータに適応させること,(3)適応された説明手法の評価と比較を行う。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Explainable artificial intelligence techniques are becoming increasingly important with the rise of deep learning applications in various domains. These techniques aim to provide a better understanding of complex "black box" models and enhance user trust while maintaining high learning performance. While many studies have focused on explaining deep learning models in computer vision for image input, video explanations remain relatively unexplored due to the temporal dimension's complexity. In this paper, we present a unified framework for local agnostic explanations in the video domain. Our contributions include: (1) Extending a fine-grained explanation framework tailored for computer vision data, (2) Adapting six existing explanation techniques to work on video data by incorporating temporal information and enabling local explanations, and (3) Conducting an evaluation and comparison of the adapted explanation methods using different models and datasets. We discuss the possibilities and choices involved in the removal-based explanation process for visual data. The adaptation of six explanation methods for video is explained, with comparisons to existing approaches. We evaluate the performance of the methods using automated metrics and user-based evaluation, showing that 3D RISE, 3D LIME, and 3D Kernel SHAP outperform other methods. By decomposing the explanation process into manageable steps, we facilitate the study of each choice's impact and allow for further refinement of explanation methods to suit specific datasets and models.
Abstract（参考訳）: さまざまな領域におけるディープラーニングアプリケーションの増加に伴い、説明可能な人工知能技術がますます重要になっている。これらの技術は、複雑な「ブラックボックス」モデルの理解を深め、高い学習性能を維持しながらユーザーの信頼を高めることを目的としている。多くの研究では、画像入力のためのコンピュータビジョンにおけるディープラーニングモデルの説明に焦点が当てられているが、ビデオの説明は時間次元の複雑さのために比較的未解明のままである。本稿では,ビデオ領域における局所的無依存な説明のための統一フレームワークを提案する。 1)コンピュータビジョンデータ用に調整された細かな説明フレームワークを拡張すること,(2)時間情報を取り込んでビデオデータに取り組むために既存の6つの説明手法を適用すること,(3)異なるモデルとデータセットを用いた適応説明手法の評価と比較を行うことである。視覚データの除去に基づく説明プロセスにおける可能性と選択について論じる。ビデオに対する6つの説明手法の適応について,既存手法との比較を行った。本研究では,自動計測とユーザベース評価を用いて,3drise,3d lime,3d kernel shapが他の手法よりも優れていることを示す。説明プロセスを管理可能なステップに分解することにより,各選択の影響の研究が容易になり,特定のデータセットやモデルに適合する説明方法をさらに洗練することができる。

関連論文リスト

On the Effectiveness of Methods and Metrics for Explainable AI in Remote Sensing Image Scene Classification [2.725507329935916]
シーン分類問題に対する説明可能な人工知能(xAI)手法の開発は、リモートセンシング(RS)において大きな注目を集めている。コンピュータビジョン(CV)で考慮された自然画像に対して、ほとんどのxAI法とRSの関連評価指標が最初に開発された。本稿では,RS画像シーン分類の文脈における説明手法とメトリクスの有効性について検討する。
論文参考訳（メタデータ） (2025-07-08T12:00:24Z)
LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning [58.98865450345401]
本稿では,マイアーのマルチメディア学習認知理論に基礎を置く自動計量であるLecEvalを紹介する。 LecEvalは、コンテンツ関連(CR)、表現的明瞭度(EC)、論理構造(LS)、聴取エンゲージメント(AE)の4つのルーリックを用いて効果を評価する私たちは、50以上のオンラインコースビデオから2000以上のスライドからなる大規模なデータセットをキュレートします。
論文参考訳（メタデータ） (2025-05-04T12:06:47Z)
SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文参考訳（メタデータ） (2025-04-08T06:00:28Z)
Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics [10.045644410833402]
LATECは、20の異なる指標を用いて17の顕著なXAI手法を批判的に評価する大規模なベンチマークである。信頼性の低いランキングに繋がるメトリクスの衝突リスクを実証し、その結果、より堅牢な評価手法を提案する。 LATECは将来のXAI研究における役割を強化し、326kのサリエンシマップと378kのメトリクススコアを(メタ評価)データセットとして公開している。
論文参考訳（メタデータ） (2024-09-25T09:07:46Z)
Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文参考訳（メタデータ） (2023-10-08T04:46:43Z)
Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文参考訳（メタデータ） (2023-08-06T17:03:32Z)
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文参考訳（メタデータ） (2023-07-27T13:52:42Z)
An Experimental Investigation into the Evaluation of Explainability Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文参考訳（メタデータ） (2023-05-25T08:07:07Z)
MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation [104.40114562948428]
教師なしドメイン適応(UDA)では、ソースデータ(例えば、合成)に基づいて訓練されたモデルは、ターゲットアノテーションにアクセスすることなく、ターゲットデータ(例えば、現実世界)に適応する。本研究では,対象領域の空間的コンテキスト関係を学習し,UDAを向上するMasked Image Consistency (MIC)モジュールを提案する。 MICは、合成からリアルタイム、日夜、クリア・ツー・リバース・ウェザーUDAの様々な認識タスクにおいて、最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2022-12-02T17:29:32Z)
Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection [12.754974372231647]
本稿では,適応型深層学習に基づくVIO手法を提案する。 Gumbel-Softmax のトリックを用いてポリシーネットワークをトレーニングし、エンドツーエンドのシステムトレーニングで決定プロセスを差別化できるようにする。実験結果から,本手法は全モードベースラインと同じような,あるいはさらに優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-12T16:17:49Z)
End-to-end video instance segmentation via spatial-temporal graph neural networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-07T05:38:08Z)
Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文参考訳（メタデータ） (2022-02-24T23:51:36Z)
The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video Inpainting [43.90848669491335]
2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークの診断評価を提案する。私たちの挑戦的なベンチマークは、ビデオインペインティングメソッドをより洞察に富んだ分析を可能にし、この分野の診断ツールとして役立ちます。
論文参考訳（メタデータ） (2021-05-11T20:13:53Z)
Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-04-01T16:48:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。