Fugu-MT 論文翻訳(概要): Low-Cost Test-Time Adaptation for Robust Video Editing

論文の概要: Low-Cost Test-Time Adaptation for Robust Video Editing

arxiv url: http://arxiv.org/abs/2507.21858v1
Date: Tue, 29 Jul 2025 14:31:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:56.468062
Title: Low-Cost Test-Time Adaptation for Robust Video Editing
Title（参考訳）: ロバストビデオ編集のための低コストテスト時間適応
Authors: Jianhui Wang, Yinda Chen, Yangfan He, Xinyuan Song, Yi Xin, Dapeng Zhang, Zhongwei Wan, Bin Li, Rongchao Zhang,
Abstract要約: ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
参考スコア（独自算出の注目度）: 4.707015344498921
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video editing is a critical component of content creation that transforms raw footage into coherent works aligned with specific visual and narrative objectives. Existing approaches face two major challenges: temporal inconsistencies due to failure in capturing complex motion patterns, and overfitting to simple prompts arising from limitations in UNet backbone architectures. While learning-based methods can enhance editing quality, they typically demand substantial computational resources and are constrained by the scarcity of high-quality annotated data. In this paper, we present Vid-TTA, a lightweight test-time adaptation framework that personalizes optimization for each test video during inference through self-supervised auxiliary tasks. Our approach incorporates a motion-aware frame reconstruction mechanism that identifies and preserves crucial movement regions, alongside a prompt perturbation and reconstruction strategy that strengthens model robustness to diverse textual descriptions. These innovations are orchestrated by a meta-learning driven dynamic loss balancing mechanism that adaptively adjusts the optimization process based on video characteristics. Extensive experiments demonstrate that Vid-TTA significantly improves video temporal consistency and mitigates prompt overfitting while maintaining low computational overhead, offering a plug-and-play performance boost for existing video editing models.
Abstract（参考訳）: ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。学習ベースの手法は、編集品質を向上させることができるが、典型的にはかなりの計算資源を必要とし、高品質な注釈付きデータの不足によって制約される。本稿では、自己教師付き補助タスクによる推論中に、各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークVid-TTAを提案する。提案手法では,重要な動き領域を識別・保存する動き認識型フレーム再構築機構と,多様なテキスト記述に対するモデルロバスト性を強化した迅速な摂動・再構築戦略を取り入れた。これらのイノベーションは、ビデオ特性に基づいて最適化プロセスを適応的に調整するメタラーニング駆動動的損失分散機構によって編成される。大規模な実験により、Vid-TTAはビデオの時間的一貫性を大幅に改善し、計算オーバーヘッドを低く保ちながらプロンプトオーバーフィッティングを軽減し、既存のビデオ編集モデルにプラグイン・アンド・プレイのパフォーマンス向上をもたらすことが示されている。

関連論文リスト

STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing [35.50656689789427]
STR-Matchは、視覚的に魅力的なコヒーレントなビデオを生成するトレーニングフリーのビデオ編集システムである。 STR-Matchは、視覚的品質と時間的一貫性の両方において、既存の手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-06-28T12:36:19Z)
FADE: Frequency-Aware Diffusion Model Factorization for Video Editing [34.887298437323295]
FADEはトレーニングなしだが、非常に効果的なビデオ編集手法である。本稿では,各コンポーネントの役割を最適化するための因子化戦略を提案する。実世界のビデオ実験により,我々の手法は高品質で現実的で時間的に整合した編集結果を一貫して提供することを示した。
論文参考訳（メタデータ） (2025-06-06T10:00:39Z)
DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models [1.972901110298768]
高品質で費用対効果の高い2段階パラメーター効率なビデオ編集のための微調整フレームワークであるDAPEを提案する。最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
論文参考訳（メタデータ） (2025-05-11T17:08:50Z)
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。生成フェーズにおける検索機構の導入を提唱する。私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文参考訳（メタデータ） (2025-04-09T08:14:05Z)
TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文参考訳（メタデータ） (2025-03-21T08:00:29Z)
Adaptive Video Understanding Agent: Enhancing efficiency with dynamic frame sampling and feedback-driven reasoning [29.89820310679906]
本稿では,長大な映像理解の効率性と有効性を両立させるエージェントベース手法を提案する。提案手法の重要な側面はクエリ適応型フレームサンプリングであり,LLMの推論能力を利用して,最も関連性の高いフレームのみをリアルタイムに処理する。提案手法を複数のビデオ理解ベンチマークで評価し,最先端性能の向上だけでなく,サンプリングしたフレーム数を削減して効率の向上を図っている。
論文参考訳（メタデータ） (2024-10-26T19:01:06Z)
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文参考訳（メタデータ） (2024-06-12T21:41:32Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)
RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文参考訳（メタデータ） (2024-05-29T19:23:53Z)
Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文参考訳（メタデータ） (2024-05-24T15:56:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。