Fugu-MT 論文翻訳(概要): AdaFlow: Efficient Long Video Editing via Adaptive Attention Slimming And Keyframe Selection

論文の概要: AdaFlow: Efficient Long Video Editing via Adaptive Attention Slimming And Keyframe Selection

arxiv url: http://arxiv.org/abs/2502.05433v1
Date: Sat, 08 Feb 2025 03:46:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.645725
Title: AdaFlow: Efficient Long Video Editing via Adaptive Attention Slimming And Keyframe Selection
Title（参考訳）: AdaFlow:Adaptive Attention SlimmingとKeyframe Selectionによる効率的な長編ビデオ編集
Authors: Shuheng Zhang, Yuqi Liu, Hongbo Zhou, Jun Peng, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji,
Abstract要約: 我々は,AdaFlowと呼ばれる,効率的かつ効果的な長編ビデオ編集のための,新規かつトレーニング不要なアプローチを提案する。 AdaFlowは、1つの推論、すなわち1つのA800 GPU上の1$k$フレームで高品質なビデオ編集時間を達成している。
参考スコア（独自算出の注目度）: 70.61420417759066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite great progress, text-driven long video editing is still notoriously challenging mainly due to excessive memory overhead. Although recent efforts have simplified this task into a two-step process of keyframe translation and interpolation generation, the token-wise keyframe translation still plagues the upper limit of video length. In this paper, we propose a novel and training-free approach towards efficient and effective long video editing, termed AdaFlow. We first reveal that not all tokens of video frames hold equal importance for keyframe translation, based on which we propose an Adaptive Attention Slimming scheme for AdaFlow to squeeze the $KV$ sequence, thus increasing the number of keyframes for translations by an order of magnitude. In addition, an Adaptive Keyframe Selection scheme is also equipped to select the representative frames for joint editing, further improving generation quality. With these innovative designs, AdaFlow achieves high-quality long video editing of minutes in one inference, i.e., more than 1$k$ frames on one A800 GPU, which is about ten times longer than the compared methods, e.g., TokenFlow. To validate AdaFlow, we also build a new benchmark for long video editing with high-quality annotations, termed LongV-EVAL. Our code is released at: https://github.com/jidantang55/AdaFlow.
Abstract（参考訳）: 大きな進歩にもかかわらず、テキスト駆動の長いビデオ編集は、主に過剰なメモリオーバーヘッドのため、依然として難しい。最近の試みでは、このタスクをキーフレーム変換と補間生成の2段階のプロセスに単純化しているが、トークン単位のキーフレーム変換はビデオ長の上限を悩ませている。本稿では,AdaFlowと呼ばれる,効率的かつ効果的な長編ビデオ編集のための,新規かつトレーニング不要なアプローチを提案する。まず、AdaFlowの適応注意スライミング方式を用いて、KV$シーケンスを圧縮し、翻訳用キーフレームの数を桁違いに増やすという方法を提案する。さらに、アダプティブ・キーフレーム選択方式により、共同編集のための代表フレームを選定し、生成品質をさらに向上する。これらの革新的な設計により、AdaFlowは1つの推論で数分の高品質な長いビデオ編集を実現している。 AdaFlowを検証するために,LongV-EVALと呼ばれる高品質なアノテーションを用いたビデオ編集のための新しいベンチマークを構築した。私たちのコードは、https://github.com/jidantang55/AdaFlow.comでリリースされています。

関連論文リスト

Frame-Level Captions for Long Video Generation with Complex Multi Scenes [52.12699618126831]
本稿では,データセットをフレームレベルでアノテートする方法を提案する。この詳細なガイダンスはFrame-Level Attention Mechanismを使って、テキストとビデオの一致を正確に確認する。トレーニングでは、Diffusion Forcingを使用して、モデルを柔軟に処理する能力を提供します。
論文参考訳（メタデータ） (2025-05-27T07:39:43Z)
FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding [70.56829394569938]
長い文脈LMMを使わずに長い入力を処理するためのフレーム選択拡張生成(FRAG)を提案する。選択プロセスのコアは、長いコンテキスト処理を必要としない各フレームを独立にスコアリングすることで行われる。 FRAGは、長大なビデオと長大な文書理解の両面において、常に性能を向上し、最先端のパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (2025-04-24T11:19:18Z)
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs [59.854331104466254]
ビデオチャプティングの課題、すなわち、長いビデオタイムラインを意味単位に分割し、対応するチャプティングタイトルを生成する。本稿では,音声書き起こし内容に基づく軽量な音声誘導フレーム選択手法を提案し,その利点を実験的に示す。以上の結果から,最新のVidChapters-7Mベンチマークでは,技術の現状よりも大幅な改善が見られた。
論文参考訳（メタデータ） (2025-03-31T17:41:29Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文参考訳（メタデータ） (2024-03-21T18:27:29Z)
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文参考訳（メタデータ） (2023-12-25T16:37:39Z)
Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文参考訳（メタデータ） (2023-12-12T14:48:48Z)
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文参考訳（メタデータ） (2023-11-22T00:26:15Z)
LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。 ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文参考訳（メタデータ） (2023-10-15T02:39:25Z)
Shortcut-V2V: Compression Framework for Video-to-Video Translation based on Temporal Redundancy Reduction [32.87579824212654]
Shortcut-V2Vはビデオ間翻訳のための汎用圧縮フレームワークである。 We show that Shourcut-V2V achieves comparable performance than the original video-to- video translation model。
論文参考訳（メタデータ） (2023-08-15T19:50:38Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文参考訳（メタデータ） (2022-03-29T17:43:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。