論文の概要: Query-controllable Video Summarization
- arxiv url: http://arxiv.org/abs/2004.03661v1
- Date: Tue, 7 Apr 2020 19:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:12:36.552878
- Title: Query-controllable Video Summarization
- Title(参考訳): クエリ制御可能なビデオ要約
- Authors: Jia-Hong Huang and Marcel Worring
- Abstract要約: 本稿では,テキストベースの問合せを入力とし,それに対応する映像要約を生成する手法を提案する。
提案手法は,映像要約制御器,映像要約生成器,映像要約出力モジュールから構成される。
- 参考スコア(独自算出の注目度): 16.54586273670312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When video collections become huge, how to explore both within and across
videos efficiently is challenging. Video summarization is one of the ways to
tackle this issue. Traditional summarization approaches limit the effectiveness
of video exploration because they only generate one fixed video summary for a
given input video independent of the information need of the user. In this
work, we introduce a method which takes a text-based query as input and
generates a video summary corresponding to it. We do so by modeling video
summarization as a supervised learning problem and propose an end-to-end deep
learning based method for query-controllable video summarization to generate a
query-dependent video summary. Our proposed method consists of a video summary
controller, video summary generator, and video summary output module. To foster
the research of query-controllable video summarization and conduct our
experiments, we introduce a dataset that contains frame-based relevance score
labels. Based on our experimental result, it shows that the text-based query
helps control the video summary. It also shows the text-based query improves
our model performance. Our code and dataset:
https://github.com/Jhhuangkay/Query-controllable-Video-Summarization.
- Abstract(参考訳): ビデオコレクションが巨大になると、ビデオ内外の両方を効率的に探索する方法は難しい。
ビデオ要約は、この問題に取り組む方法の1つだ。
従来の要約アプローチは、ユーザの情報ニーズによらず、特定の入力ビデオに対して1つの固定されたビデオ要約を生成するため、ビデオ探索の有効性を制限する。
本研究では,テキストベースのクエリを入力とし,それに対応するビデオ要約を生成する手法を提案する。
本研究では,教師付き学習問題としてビデオ要約をモデル化し,クエリ制御可能なビデオ要約のためのエンドツーエンドディープラーニング手法を提案し,クエリ依存ビデオ要約を生成する。
提案手法は,ビデオ要約コントローラ,ビデオ要約生成器,ビデオ要約出力モジュールで構成される。
問合せ制御可能なビデオ要約の研究を促進し,実験を行うために,フレームベースの関連スコアラベルを含むデータセットを提案する。
実験結果に基づき,テキストベースのクエリがビデオ要約の制御に有用であることを示す。
また、テキストベースのクエリにより、モデルのパフォーマンスが向上することを示す。
私たちのコードとデータセットは、https://github.com/Jhhuangkay/Query-controllable-Video-Summarizationです。
関連論文リスト
- Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Video Summarization Overview [25.465707307283434]
ビデオ要約は、ビデオのコンパクトな要約を作成することにより、ビデオコンテンツを素早く把握することを容易にする。
本調査は, ディープラーニング技術を活用した最近のアプローチと同様に, 早期研究についても取り上げる。
論文 参考訳(メタデータ) (2022-10-21T03:29:31Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。