論文の概要: Causalainer: Causal Explainer for Automatic Video Summarization
- arxiv url: http://arxiv.org/abs/2305.00455v1
- Date: Sun, 30 Apr 2023 11:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 15:06:07.331998
- Title: Causalainer: Causal Explainer for Automatic Video Summarization
- Title(参考訳): Causalainer: 自動要約のためのCausal Explainer
- Authors: Jia-Hong Huang, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hung Chen, Marcel
Worring
- Abstract要約: 多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
- 参考スコア(独自算出の注目度): 77.36225634727221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of video summarization is to automatically shorten videos such that
it conveys the overall story without losing relevant information. In many
application scenarios, improper video summarization can have a large impact.
For example in forensics, the quality of the generated video summary will
affect an investigator's judgment while in journalism it might yield undesired
bias. Because of this, modeling explainability is a key concern. One of the
best ways to address the explainability challenge is to uncover the causal
relations that steer the process and lead to the result. Current machine
learning-based video summarization algorithms learn optimal parameters but do
not uncover causal relationships. Hence, they suffer from a relative lack of
explainability. In this work, a Causal Explainer, dubbed Causalainer, is
proposed to address this issue. Multiple meaningful random variables and their
joint distributions are introduced to characterize the behaviors of key
components in the problem of video summarization. In addition, helper
distributions are introduced to enhance the effectiveness of model training. In
visual-textual input scenarios, the extra input can decrease the model
performance. A causal semantics extractor is designed to tackle this issue by
effectively distilling the mutual information from the visual and textual
inputs. Experimental results on commonly used benchmarks demonstrate that the
proposed method achieves state-of-the-art performance while being more
explainable.
- Abstract(参考訳): ビデオ要約の目的は、関連情報を失わずに全体を伝えるように自動的に短縮することである。
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
例えば、法医学では、生成されたビデオ要約の品質が調査員の判断に影響を与え、ジャーナリズムでは望ましくない偏見をもたらす可能性がある。
そのため、説明可能性のモデリングは重要な関心事である。
説明可能性の課題に対処する最善の方法の1つは、プロセスを進行させ結果につながる因果関係を明らかにすることである。
現在の機械学習に基づくビデオ要約アルゴリズムは最適なパラメータを学習するが、因果関係は明らかにしない。
そのため、説明可能性の相対的な欠如に苦しむ。
本研究では,この問題に対処するために,因果説明者(causalainer)という因果説明者を提案する。
ビデオ要約問題において重要成分の挙動を特徴付けるために,複数の有意な確率変数とその共同分布を導入する。
また,モデルトレーニングの有効性を高めるため,ヘルパ分布を導入した。
視覚テキスト入力のシナリオでは、余分な入力はモデルの性能を低下させる。
視覚的およびテキスト入力から相互情報を効果的に蒸留することにより、この問題に対処するために因果意味論抽出器が設計されている。
一般的なベンチマーク実験の結果,提案手法はより説明性が高く,最先端性能を実現していることがわかった。
関連論文リスト
- Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Program Generation from Diverse Video Demonstrations [49.202289347899836]
複数の観察を総合することは、歴史的に機械が把握するのが困難であったタスクである。
本稿では,要約と翻訳を同時に行うことで,ビデオデモから一般的なルールを抽出できるモデルを提案する。
論文 参考訳(メタデータ) (2023-02-01T01:51:45Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - iReason: Multimodal Commonsense Reasoning using Videos and Natural
Language with Interpretability [0.0]
因果的知識は、堅牢なAIシステムを構築する上で不可欠である。
iReasonは、ビデオと自然言語のキャプションの両方を用いて、視覚意味のコモンセンス知識を推論するフレームワークである。
論文 参考訳(メタデータ) (2021-06-25T02:56:34Z) - How Good is a Video Summary? A New Benchmarking Dataset and Evaluation
Framework Towards Realistic Video Summarization [11.320914099324492]
6つのカテゴリにまたがる長いビデオで構成されるVISIOCITYと呼ばれる新しいベンチマークビデオデータセットを紹介します。
VISIOCITYに存在する間接的地上真実から複数の参照要約を自動的に生成する戦略を示す。
人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-26T01:42:55Z) - Dependency Decomposition and a Reject Option for Explainable Models [4.94950858749529]
近年のディープラーニングモデルは様々な推論タスクにおいて非常によく機能する。
最近の進歩は特徴を視覚化し、入力の属性を記述する方法を提供します。
本稿では, 目的の画像分類出力に対する確率分布に関する依存性を初めて解析する。
論文 参考訳(メタデータ) (2020-12-11T17:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。