Fugu-MT 論文翻訳(概要): TeDiO: Temporal Diagonal Optimization for Training-Free Coherent Video Diffusion

論文の概要: TeDiO: Temporal Diagonal Optimization for Training-Free Coherent Video Diffusion

arxiv url: http://arxiv.org/abs/2605.14136v1
Date: Wed, 13 May 2026 21:39:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-16 00:43:04.080315
Title: TeDiO: Temporal Diagonal Optimization for Training-Free Coherent Video Diffusion
Title（参考訳）: TeDiO: トレーニング不要コヒーレントビデオ拡散のための時間対角最適化
Authors: Nurislam Tursynbek, Zhiqiang Lao, Heather Yu, Gedas Bertasius, Marc Niethammer,
Abstract要約: 不整合なビデオは、中間的自己注意マップにおいて、不規則で断片化された時間的対角線を常に示している。本稿では,これらの内部の注意パターンを規則化し,時間的一貫性を補強するトレーニング不要な推論時間手法TeDiOを紹介する。
参考スコア（独自算出の注目度）: 30.705936075333465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent text-to-video diffusion transformers generate visually compelling frames, yet still struggle with temporal coherence, often producing flickering, drifting, or unstable motion. We show that these failures leave a clear imprint inside the model: incoherent videos consistently exhibit irregular, fragmented temporal diagonals in their intermediate self-attention maps, whereas stable motion corresponds to smooth, band-diagonal patterns. Building on this observation, we introduce TeDiO, a training-free, inference-time method that reinforces temporal consistency by regularizing these internal attention patterns. TeDiO estimates diagonal smoothness, identifies unstable regions, and performs lightweight latent updates that promote coherent frame-to-frame dynamics, without modifying model weights or using external motion supervision. Across multiple video diffusion models (e.g., Wan2.1, CogVideoX), TeDiO delivers markedly smoother motion while preserving per-frame visual quality, offering an efficient plug-and-play approach to improving dynamic realism in modern video generation systems.
Abstract（参考訳）: 最近のテキスト・ビデオ拡散変換器は、視覚的に魅力的なフレームを生成するが、時間的コヒーレンスに苦戦し、しばしばフリッカリング、ドリフト、不安定な動きを生み出す。非コヒーレントビデオは、その中間の自己アテンションマップにおいて、不規則で断片化された時間的対角線を連続的に示し、一方で安定した動きは、スムーズなバンド対角線パターンに対応している。この観測に基づいて,これらの内部の注意パターンを規則化し,時間的整合性を強化するトレーニング不要推論時間法TeDiOを導入する。 TeDiOは斜めの滑らかさを推定し、不安定な領域を特定し、モデルの重みを変更したり、外部の動き監視を使用することなく、コヒーレントなフレーム・ツー・フレームのダイナミクスを促進する軽量の潜時更新を実行する。複数のビデオ拡散モデル(例: Wan2.1, CogVideoX)にまたがって、TeDiOはフレームごとの視覚的品質を維持しながら、よりスムーズな動きを提供する。

関連論文リスト

SHIFT: Motion Alignment in Video Diffusion Models with Adversarial Hybrid Fine-Tuning [47.36837823291006]
本稿では,映像拡散モデルにおける動きアライメントの問題について考察する。この問題に対処するために,画素フラックスダイナミクスに基づく画素運動報酬を導入する。ビデオ拡散モデルのためのスケーラブルな報酬駆動微調整フレームワークであるSmooth Hybrid Fine-tuning (SHIFT)を提案する。
論文参考訳（メタデータ） (2026-03-18T07:04:02Z)
Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [16.692450893925148]
リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。 Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
論文参考訳（メタデータ） (2025-12-25T16:34:56Z)
Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文参考訳（メタデータ） (2025-12-03T15:51:11Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way [72.1984861448374]
ByTheWayは、追加のパラメータやメモリ増設、サンプリング時間を導入することなく、テキスト・ビデオ生成の品質を向上させるためのトレーニング不要の方法である。様々なデコーダブロックにまたがる時間的アテンションマップ間の差異を低減することにより、生成されたビデオの構造的妥当性と時間的一貫性を向上させる。地図のエネルギーを増幅することで、運動の大きさと豊かさを高める。
論文参考訳（メタデータ） (2024-10-08T17:56:33Z)
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文参考訳（メタデータ） (2024-07-11T17:34:51Z)
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文参考訳（メタデータ） (2024-03-19T17:59:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。