Fugu-MT 論文翻訳(概要): CLIP-It! Language-Guided Video Summarization

論文の概要: CLIP-It! Language-Guided Video Summarization

arxiv url: http://arxiv.org/abs/2107.00650v1
Date: Thu, 1 Jul 2021 17:59:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-02 14:38:02.344924
Title: CLIP-It! Language-Guided Video Summarization
Title（参考訳）: CLIP-It! 言語誘導ビデオ要約
Authors: Medhini Narasimhan, Anna Rohrbach, Trevor Darrell
Abstract要約: この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
参考スコア（独自算出の注目度）: 96.69415453447166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A generic video summary is an abridged version of a video that conveys the whole story and features the most important scenes. Yet the importance of scenes in a video is often subjective, and users should have the option of customizing the summary by using natural language to specify what is important to them. Further, existing models for fully automatic generic summarization have not exploited available language models, which can serve as an effective prior for saliency. This work introduces CLIP-It, a single framework for addressing both generic and query-focused video summarization, typically approached separately in the literature. We propose a language-guided multimodal transformer that learns to score frames in a video based on their importance relative to one another and their correlation with a user-defined query (for query-focused summarization) or an automatically generated dense video caption (for generic video summarization). Our model can be extended to the unsupervised setting by training without ground-truth supervision. We outperform baselines and prior work by a significant margin on both standard video summarization datasets (TVSum and SumMe) and a query-focused video summarization dataset (QFVS). Particularly, we achieve large improvements in the transfer setting, attesting to our method's strong generalization capabilities.
Abstract（参考訳）: 総称的なビデオ要約は、全ストーリーを伝え、最も重要なシーンを特徴付けるビデオの短縮版である。しかし、ビデオにおけるシーンの重要性はしばしば主観的であり、ユーザーは自然言語を使って要約をカスタマイズし、それらにとって何が重要なのかを特定する選択肢を持つべきである。さらに、完全自動ジェネリック要約のための既存のモデルは利用可能な言語モデルを利用していない。この本では、ジェネリックとクエリにフォーカスしたビデオ要約の両方に対処するための単一のフレームワークである clip-it を紹介している。本稿では,言語誘導型マルチモーダルトランスフォーマーを提案し,その重要度とユーザ定義クエリ(クエリ中心要約)や,自動生成された高密度ビデオキャプション(ジェネリックビデオ要約)との相関から,ビデオ中のフレームのスコアリングを学習する。我々のモデルは、地上監視なしで訓練することで、教師なしの設定に拡張することができる。標準ビデオ要約データセット (tvsum と summe) とクエリ指向ビデオ要約データセット (qfvs) の両方において,ベースラインと先行作業とを有意差で上回っている。特に,本手法の強い一般化能力を示すため,転送設定の大幅な改善を実現した。

関連論文リスト

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization [12.200609701777907]
Prompts-to-Summaries:最初のゼロショット・テキストクエリ可能なビデオ要約器を紹介する。市販のビデオ言語モデル(VidLMs)のキャプションを、大きな言語モデル(LLMs)によるユーザガイドのスキムに変換する。我々のパイプラインは、メモリ効率の高いバッチスタイルのVidLMプロンプトスキームにより、リッチなシーンレベルの記述を生成する。 SumMe と TVSum では、我々のデータフリーアプローチは、以前のデータハングリーな教師なし手法を全て上回っている。
論文参考訳（メタデータ） (2025-06-12T15:23:11Z)
SD-VSum: A Method and Dataset for Script-Driven Video Summarization [6.076406622352117]
スクリプト駆動のビデオ要約(VideoXum)の課題を紹介する。我々は、ビデオ毎に利用できる異なる人間注釈の要約を自然言語で記述する。我々はスクリプト駆動のビデオ要約(SD-VSum)のための新しいネットワークアーキテクチャを開発した。
論文参考訳（メタデータ） (2025-05-06T08:47:14Z)
Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。 LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-15T13:56:14Z)
Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。 VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文参考訳（メタデータ） (2024-11-05T22:14:35Z)
Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文参考訳（メタデータ） (2024-10-06T15:03:22Z)
Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文参考訳（メタデータ） (2024-08-27T02:43:40Z)
Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video [22.60291297308379]
本研究では,映像要約タスクを自然言語処理(NLP)タスクに変換する可能性について検討する。本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-05-14T18:07:04Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文参考訳（メタデータ） (2023-03-21T17:51:23Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文参考訳（メタデータ） (2020-08-06T04:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。