Fugu-MT 論文翻訳(概要): Object-Centric Diffusion for Efficient Video Editing

論文の概要: Object-Centric Diffusion for Efficient Video Editing

arxiv url: http://arxiv.org/abs/2401.05735v2
Date: Mon, 15 Jul 2024 12:32:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 02:14:47.314668
Title: Object-Centric Diffusion for Efficient Video Editing
Title（参考訳）: 効率的な映像編集のためのオブジェクト中心拡散
Authors: Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian,
Abstract要約: デルタ蒸留と呼ばれる新しい知識蒸留方式を提案する。ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。副産物として、デルタ蒸留は教師モデルの時間的一貫性を向上させる。
参考スコア（独自算出の注目度）: 64.71639719352636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper aims to accelerate video stream processing, such as object detection and semantic segmentation, by leveraging the temporal redundancies that exist between video frames. Instead of propagating and warping features using motion alignment, such as optical flow, we propose a novel knowledge distillation schema coined as Delta Distillation. In our proposal, the student learns the variations in the teacher's intermediate features over time. We demonstrate that these temporal variations can be effectively distilled due to the temporal redundancies within video frames. During inference, both teacher and student cooperate for providing predictions: the former by providing initial representations extracted only on the key-frame, and the latter by iteratively estimating and applying deltas for the successive frames. Moreover, we consider various design choices to learn optimal student architectures including an end-to-end learnable architecture search. By extensive experiments on a wide range of architectures, including the most efficient ones, we demonstrate that delta distillation sets a new state of the art in terms of accuracy vs. efficiency trade-off for semantic segmentation and object detection in videos. Finally, we show that, as a by-product, delta distillation improves the temporal consistency of the teacher model.
Abstract（参考訳）: 本稿では,ビデオフレーム間に存在する時間的冗長性を利用して,オブジェクト検出やセマンティックセグメンテーションなどのビデオストリーム処理を高速化することを目的とする。光フローなどの運動アライメントを用いた伝播・ワープ機能の代わりに,デルタ蒸留という新しい知識蒸留方式を提案する。本提案では,時間とともに教師の中間的特徴の変化を学習する。ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。前者はキーフレームのみに抽出された初期表現を提供することで、後者は連続したフレームに対してデルタを反復的に推定し、適用することで予測を行う。さらに,エンド・ツー・エンドの学習可能なアーキテクチャ探索を含む,最適な学生アーキテクチャを学ぶための設計選択についても検討する。最も効率的なものを含む、幅広いアーキテクチャに関する広範な実験により、デルタ蒸留は、ビデオにおけるセマンティックセグメンテーションとオブジェクト検出のための効率トレードオフの精度において、新しい最先端の状態を設定できることが実証された。最後に, 副生成物としてデルタ蒸留により教師モデルの時間的一貫性が向上することを示す。

関連論文リスト

Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。 SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-24T18:59:05Z)
Edit-Your-Interest: Efficient Video Editing via Feature Most-Similar Propagation [53.05471174430247]
Edit-Your-Interestはテキスト駆動のゼロショットビデオ編集手法である。フルシーケンス・テンポラル・モデリング手法に比べて計算オーバーヘッドを低減させる。効率性と視覚的忠実性の両方において最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-10-15T01:55:32Z)
ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文参考訳（メタデータ） (2025-09-16T17:12:23Z)
Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文参考訳（メタデータ） (2025-07-29T14:31:17Z)
Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。 RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文参考訳（メタデータ） (2024-12-16T12:32:21Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。 VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文参考訳（メタデータ） (2024-07-27T08:21:14Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)
Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文参考訳（メタデータ） (2023-09-15T05:31:53Z)
NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。 NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文参考訳（メタデータ） (2022-07-21T09:41:22Z)
A Simple Baseline for Video Restoration with Grouped Spatial-temporal Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文参考訳（メタデータ） (2022-06-22T02:16:47Z)
Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文参考訳（メタデータ） (2021-05-07T13:24:47Z)
An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文参考訳（メタデータ） (2020-12-24T00:03:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。