論文の概要: An Experimental Study on Generating Plausible Textual Explanations for Video Summarization
- arxiv url: http://arxiv.org/abs/2509.26225v1
- Date: Tue, 30 Sep 2025 13:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.551329
- Title: An Experimental Study on Generating Plausible Textual Explanations for Video Summarization
- Title(参考訳): 映像要約のための可塑性テキスト記述の生成に関する実験的検討
- Authors: Thomas Eleftheriadis, Evlampios Apostolidis, Vasileios Mezaris,
- Abstract要約: 我々は,SOTAの大規模マルチモーダルモデルを統合することで,ビデオ要約のマルチグラニュラ説明のための既存のフレームワークを拡張した。
我々は、AIの説明に最も望まれる特徴の1つ、得られた説明の妥当性に焦点を当てる。
ビデオ要約のためのSOTA法と2つのデータセットを用いて実験を行い、より忠実な説明がより妥当なものであるかどうかを検証した。
- 参考スコア(独自算出の注目度): 5.531123091747035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present our experimental study on generating plausible textual explanations for the outcomes of video summarization. For the needs of this study, we extend an existing framework for multigranular explanation of video summarization by integrating a SOTA Large Multimodal Model (LLaVA-OneVision) and prompting it to produce natural language descriptions of the obtained visual explanations. Following, we focus on one of the most desired characteristics for explainable AI, the plausibility of the obtained explanations that relates with their alignment with the humans' reasoning and expectations. Using the extended framework, we propose an approach for evaluating the plausibility of visual explanations by quantifying the semantic overlap between their textual descriptions and the textual descriptions of the corresponding video summaries, with the help of two methods for creating sentence embeddings (SBERT, SimCSE). Based on the extended framework and the proposed plausibility evaluation approach, we conduct an experimental study using a SOTA method (CA-SUM) and two datasets (SumMe, TVSum) for video summarization, to examine whether the more faithful explanations are also the more plausible ones, and identify the most appropriate approach for generating plausible textual explanations for video summarization.
- Abstract(参考訳): 本稿では,映像要約の結果に対する有意なテキスト説明の生成に関する実験的検討を行う。
そこで本研究では,SOTA Large Multimodal Model (LLaVA-OneVision)を統合し,得られた視覚的説明を自然言語で記述することで,映像要約の多言語的説明のための既存のフレームワークを拡張した。
以下は、人間の推論と期待との整合性に関連する、得られた説明の妥当性である、説明可能なAIの最も望ましい特徴の1つに焦点を当てる。
拡張されたフレームワークを用いて,テキスト記述と対応するビデオ要約のテキスト記述とのセマンティックオーバーラップを定量化することにより,視覚的説明の妥当性を評価する手法を提案する。
拡張フレームワークと提案した妥当性評価手法に基づいて,ビデオ要約のためのSOTA法(CA-SUM)と2つのデータセット(SumMe,TVSum)を用いて実験を行い,より忠実な説明がより妥当な説明であるかどうかを検証し,ビデオ要約のための妥当なテキスト説明を生成するための最も適切なアプローチを特定する。
関連論文リスト
- MetaExplainer: A Framework to Generate Multi-Type User-Centered Explanations for AI Systems [1.9811010456089264]
ユーザ中心の説明を生成するために設計された,ニューロシンボリックなフレームワークであるMetaExplainerを紹介する。
提案手法には3段階のプロセスがある: まず, 現状の大規模言語モデル (LLM) を用いて, ユーザ質問を機械可読形式に分解し, 第二に, システムレコメンデーションを生成するタスクをモデル記述者メソッドに委譲し, そして最後に, 説明者出力を要約した自然言語説明を合成する。
論文 参考訳(メタデータ) (2025-08-01T04:01:40Z) - VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - Explanatory Summarization with Discourse-Driven Planning [58.449423507036414]
本稿では、談話フレームワークを活用して要約生成を整理し、説明文を案内するプランベースアプローチを提案する。
具体的には、2つの談話型計画戦略を提案し、そこでは、計画が出力プレフィックスの入力または部分の一部として条件付けられている。
3つのレイ・サマリゼーション・データセットに関する実証実験により,本手法は要約品質の観点から既存の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-27T19:47:36Z) - Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - An Integrated Framework for Multi-Granular Explanation of Video Summarization [6.076406622352117]
このフレームワークは、フラグメントレベルとビジュアルオブジェクトレベルの両方で説明を生成する方法を統合する。
開発フレームワークの性能は,最先端の要約手法と2つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-05-16T13:25:36Z) - Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-17T04:23:08Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z) - Sequential Explanations with Mental Model-Based Policies [20.64968620536829]
本研究では,説明者の精神モデルに基づく説明を提供するための強化学習フレームワークを適用した。
我々は、説明が選ばれ、参加者に提示される新しいオンライン人間実験を行う。
以上の結果から,精神モデルに基づく政策は,複数のシーケンシャルな説明よりも解釈可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-17T14:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。