論文の概要: When Test-Time Guidance Is Enough: Fast Image and Video Editing with Diffusion Guidance
- arxiv url: http://arxiv.org/abs/2602.14157v1
- Date: Sun, 15 Feb 2026 14:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.674249
- Title: When Test-Time Guidance Is Enough: Fast Image and Video Editing with Diffusion Guidance
- Title(参考訳): 高速画像編集と拡散誘導による動画編集
- Authors: Ahmed Ghorbel, Badr Moufad, Navid Bagheri Shouraki, Alain Oliviero Durmus, Thomas Hirtz, Eric Moulines, Jimmy Olsson, Yazid Janati,
- Abstract要約: テストタイムガイダンスだけでは、トレーニングベースの手法に匹敵するパフォーマンスを達成できることを示す。
その結果、テストタイムガイダンスだけでは、トレーニングベースの手法に匹敵する、場合によっては超えるパフォーマンスを達成できることを示した。
- 参考スコア(独自算出の注目度): 27.23944440993103
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-driven image and video editing can be naturally cast as inpainting problems, where masked regions are reconstructed to remain consistent with both the observed content and the editing prompt. Recent advances in test-time guidance for diffusion and flow models provide a principled framework for this task; however, existing methods rely on costly vector--Jacobian product (VJP) computations to approximate the intractable guidance term, limiting their practical applicability. Building upon the recent work of Moufad et al. (2025), we provide theoretical insights into their VJP-free approximation and substantially extend their empirical evaluation to large-scale image and video editing benchmarks. Our results demonstrate that test-time guidance alone can achieve performance comparable to, and in some cases surpass, training-based methods.
- Abstract(参考訳): テキスト駆動による画像編集とビデオ編集は、観察されたコンテンツと編集プロンプトの両方と整合性を保つために、マスクされた領域を再構成する、塗装上の問題として自然にキャストすることができる。
近年の拡散流モデルにおける試験時間ガイダンスの進歩は,本課題の基本的な枠組みとなっているが,既存の手法では,コストのかかるベクトル-ヤコビアン積 (VJP) 計算に頼って誘導項を近似し,現実的な適用性を制限している。
近年の Moufad et al (2025) の業績に基づき,VJPフリー近似に関する理論的知見を提供し,その経験的評価を大規模画像・ビデオ編集ベンチマークに実質的に拡張する。
その結果、テストタイムガイダンスだけでは、トレーニングベースの手法に匹敵する、場合によっては超えるパフォーマンスを達成できることを示した。
関連論文リスト
- The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos [101.59710862476041]
1秒で高速なドラッグベースの画像編集を可能にするLightningDragを提案する。
従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義する。
提案手法は, 精度と整合性の観点から, 従来手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-22T15:14:00Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。