Fugu-MT 論文翻訳(概要): Large Model based Sequential Keyframe Extraction for Video Summarization

論文の概要: Large Model based Sequential Keyframe Extraction for Video Summarization

arxiv url: http://arxiv.org/abs/2401.04962v1
Date: Wed, 10 Jan 2024 07:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 15:17:17.966297
Title: Large Model based Sequential Keyframe Extraction for Video Summarization
Title（参考訳）: ビデオ要約のための大規模モデルに基づくシーケンシャルキーフレーム抽出
Authors: Kailong Tan and Yuxiang Zhou and Qianchen Xia and Rui Liu and Yong Chen
Abstract要約: 本稿では,LMSKE(Large Model based Keyframe extract for video summarization, LMSKE)について述べる。まず,大容量モデル「TransNetV21」を用いて連続撮影を行い,大容量モデル「CLIP2」を用いて各撮影フレームの視覚的特徴を生成する。第3に、各ショット内の冗長除去により上記の候補を削減し、最後にシーケンシャルキーとしてショットのシーケンスに従ってそれらを削減する。
参考スコア（独自算出の注目度）: 8.32106875419893
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Keyframe extraction aims to sum up a video's semantics with the minimum number of its frames. This paper puts forward a Large Model based Sequential Keyframe Extraction for video summarization, dubbed LMSKE, which contains three stages as below. First, we use the large model "TransNetV21" to cut the video into consecutive shots, and employ the large model "CLIP2" to generate each frame's visual feature within each shot; Second, we develop an adaptive clustering algorithm to yield candidate keyframes for each shot, with each candidate keyframe locating nearest to a cluster center; Third, we further reduce the above candidate keyframes via redundancy elimination within each shot, and finally concatenate them in accordance with the sequence of shots as the final sequential keyframes. To evaluate LMSKE, we curate a benchmark dataset and conduct rich experiments, whose results exhibit that LMSKE performs much better than quite a few SOTA competitors with average F1 of 0.5311, average fidelity of 0.8141, and average compression ratio of 0.9922.
Abstract（参考訳）: キーフレーム抽出は、ビデオのセマンティクスを最小フレーム数で要約することを目的としている。本稿では,ビデオ要約のための大規模モデルに基づくシーケンシャルなキーフレーム抽出手法であるlmskeについて述べる。 First, we use the large model "TransNetV21" to cut the video into consecutive shots, and employ the large model "CLIP2" to generate each frame's visual feature within each shot; Second, we develop an adaptive clustering algorithm to yield candidate keyframes for each shot, with each candidate keyframe locating nearest to a cluster center; Third, we further reduce the above candidate keyframes via redundancy elimination within each shot, and finally concatenate them in accordance with the sequence of shots as the final sequential keyframes. LMSKEを評価するために、ベンチマークデータセットをキュレートし、リッチな実験を行い、その結果、LMSKEは平均F1が0.5311、平均F1が0.8141、平均圧縮比が0.9922の、非常に少数のSOTAコンペティターよりもはるかに優れた性能を示した。

関連論文リスト

Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。伝統的な一様サンプリングは、無関係な内容の選択につながる。数千フレームの訓練後のMLLMは、かなりの計算負担を課す。本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文参考訳（メタデータ） (2025-05-30T03:04:28Z)
Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。 2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文参考訳（メタデータ） (2025-02-28T17:46:29Z)
The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文参考訳（メタデータ） (2025-01-15T03:17:24Z)
Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文参考訳（メタデータ） (2024-11-10T12:43:38Z)
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文参考訳（メタデータ） (2023-07-09T14:54:30Z)
Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文参考訳（メタデータ） (2023-06-21T15:09:37Z)
Deep Unsupervised Key Frame Extraction for Efficient Video Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文参考訳（メタデータ） (2022-11-12T20:45:35Z)
Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames [39.03408879727955]
クロスモーダルなビデオ検索は、テキストを問合せとして与えられた意味のあるビデオを取得することを目的としている。一般的な単純な解決策は、ビデオからViTへの入力として少数のフレームを均一にサンプリングすることである。本稿では,このトレードオフを解消するために,バイレベル最適化プログラムに基づく自動ビデオ圧縮手法を提案する。
論文参考訳（メタデータ） (2022-10-16T05:35:00Z)
MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文参考訳（メタデータ） (2022-04-18T14:53:33Z)
OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文参考訳（メタデータ） (2022-01-12T09:50:38Z)
Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文参考訳（メタデータ） (2021-03-25T10:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。