論文の概要: An Integrated Framework for Multi-Granular Explanation of Video Summarization
- arxiv url: http://arxiv.org/abs/2405.10082v1
- Date: Thu, 16 May 2024 13:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:12:27.827290
- Title: An Integrated Framework for Multi-Granular Explanation of Video Summarization
- Title(参考訳): 映像要約の多角的説明のための統合化フレームワーク
- Authors: Konstantinos Tsigos, Evlampios Apostolidis, Vasileios Mezaris,
- Abstract要約: このフレームワークは、フラグメントレベルとビジュアルオブジェクトレベルの両方で説明を生成する方法を統合する。
開発フレームワークの性能は,最先端の要約手法と2つのデータセットを用いて評価する。
- 参考スコア(独自算出の注目度): 6.076406622352117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an integrated framework for multi-granular explanation of video summarization. This framework integrates methods for producing explanations both at the fragment level (indicating which video fragments influenced the most the decisions of the summarizer) and the more fine-grained visual object level (highlighting which visual objects were the most influential for the summarizer). To build this framework, we extend our previous work on this field, by investigating the use of a model-agnostic, perturbation-based approach for fragment-level explanation of the video summarization results, and introducing a new method that combines the results of video panoptic segmentation with an adaptation of a perturbation-based explanation approach to produce object-level explanations. The performance of the developed framework is evaluated using a state-of-the-art summarization method and two datasets for benchmarking video summarization. The findings of the conducted quantitative and qualitative evaluations demonstrate the ability of our framework to spot the most and least influential fragments and visual objects of the video for the summarizer, and to provide a comprehensive set of visual-based explanations about the output of the summarization process.
- Abstract(参考訳): 本稿では,映像要約の多言語的説明のための統合フレームワークを提案する。
このフレームワークは、断片レベル(要約者の判断に最も影響を与えたビデオフラグメントの表示)とよりきめ細かいビジュアルオブジェクトレベル(要約者にとって最も影響力のあるビジュアルオブジェクトのハイライト)の両方で説明を生成する方法を統合する。
このフレームワークを構築するために,ビデオ要約結果のフラグメントレベル説明にモデルに依存しない摂動に基づくアプローチを適用し,ビデオ汎視分割の結果と摂動に基づく説明アプローチの適応を組み合わせてオブジェクトレベルの説明を生成する手法を提案する。
映像要約のベンチマークを行うために,最先端の要約手法と2つのデータセットを用いて,開発フレームワークの性能を評価する。
本研究の定量的および質的評価の結果は,要約者の映像の最も影響力の低い断片や視覚的対象を識別するフレームワークの能力を示し,要約プロセスの出力に関する視覚的説明の包括的セットを提供する。
関連論文リスト
- Enhancing Video Summarization with Context Awareness [9.861215740353247]
ビデオ要約は、ビデオの本質をキャプチャするテクニック、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。
ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが不足している。
本稿では,映像データ構造と情報を活用して情報要約を生成する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:08:34Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Sample Efficient Multimodal Semantic Augmentation for Incremental
Summarization [13.529904498331673]
タスクビデオの漸進的な要約のためのプロンプト手法を開発した。
既存のモデルを用いて画像から意味概念を抽出する。
関連データセットに結果を示し、作業の可能な方向性について議論する。
論文 参考訳(メタデータ) (2023-03-08T03:58:06Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Video Super-resolution with Temporal Group Attention [127.21615040695941]
本稿では,時間的情報を階層的に効果的に組み込む新しい手法を提案する。
入力シーケンスは複数のグループに分けられ、それぞれがフレームレートの種類に対応する。
これは、いくつかのベンチマークデータセットにおける最先端のメソッドに対して良好なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-07-21T04:54:30Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z) - Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。
提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文 参考訳(メタデータ) (2020-04-07T09:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。