論文の概要: CLIP-It! Language-Guided Video Summarization
- arxiv url: http://arxiv.org/abs/2107.00650v1
- Date: Thu, 1 Jul 2021 17:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 14:38:02.344924
- Title: CLIP-It! Language-Guided Video Summarization
- Title(参考訳): CLIP-It!
言語誘導ビデオ要約
- Authors: Medhini Narasimhan, Anna Rohrbach, Trevor Darrell
- Abstract要約: この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
- 参考スコア(独自算出の注目度): 96.69415453447166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A generic video summary is an abridged version of a video that conveys the
whole story and features the most important scenes. Yet the importance of
scenes in a video is often subjective, and users should have the option of
customizing the summary by using natural language to specify what is important
to them. Further, existing models for fully automatic generic summarization
have not exploited available language models, which can serve as an effective
prior for saliency. This work introduces CLIP-It, a single framework for
addressing both generic and query-focused video summarization, typically
approached separately in the literature. We propose a language-guided
multimodal transformer that learns to score frames in a video based on their
importance relative to one another and their correlation with a user-defined
query (for query-focused summarization) or an automatically generated dense
video caption (for generic video summarization). Our model can be extended to
the unsupervised setting by training without ground-truth supervision. We
outperform baselines and prior work by a significant margin on both standard
video summarization datasets (TVSum and SumMe) and a query-focused video
summarization dataset (QFVS). Particularly, we achieve large improvements in
the transfer setting, attesting to our method's strong generalization
capabilities.
- Abstract(参考訳): 総称的なビデオ要約は、全ストーリーを伝え、最も重要なシーンを特徴付けるビデオの短縮版である。
しかし、ビデオにおけるシーンの重要性はしばしば主観的であり、ユーザーは自然言語を使って要約をカスタマイズし、それらにとって何が重要なのかを特定する選択肢を持つべきである。
さらに、完全自動ジェネリック要約のための既存のモデルは利用可能な言語モデルを利用していない。
この本では、ジェネリックとクエリにフォーカスしたビデオ要約の両方に対処するための単一のフレームワークである clip-it を紹介している。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案し,その重要度とユーザ定義クエリ(クエリ中心要約)や,自動生成された高密度ビデオキャプション(ジェネリックビデオ要約)との相関から,ビデオ中のフレームのスコアリングを学習する。
我々のモデルは、地上監視なしで訓練することで、教師なしの設定に拡張することができる。
標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。
特に,本手法の強い一般化能力を示すため,転送設定の大幅な改善を実現した。
関連論文リスト
- Video-CSR: Complex Video Digest Creation for Visual-Language Models [71.66614561702131]
実世界のビデオクリップのキャプションや要約を生成する視覚言語モデルの性能を評価するための新しいタスクと人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の4.8KのYouTubeビデオクリップが含まれており、幅広いトピックや興味をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [67.03643944475712]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Learning to Summarize Videos by Contrasting Clips [1.3999481573773074]
ビデオ要約は、オリジナルに近いストーリーをナレーションするビデオの一部を選択することを目的としている。
既存のビデオ要約アプローチのほとんどは手作りのラベルに重点を置いている。
両質問に対する回答として,コントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-01-12T18:55:30Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。