Fugu-MT 論文翻訳(概要): Flow of Truth: Proactive Temporal Forensics for Image-to-Video Generation

論文の概要: Flow of Truth: Proactive Temporal Forensics for Image-to-Video Generation

arxiv url: http://arxiv.org/abs/2604.15003v1
Date: Thu, 16 Apr 2026 13:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.922677
Title: Flow of Truth: Proactive Temporal Forensics for Image-to-Video Generation
Title（参考訳）: 真実の流れ:画像・映像生成のための積極的な時間法学
Authors: Yuzhuo Chen, Zehua Ma, Han Fang, Hengyi Wang, Guanjie Wang, Weiming Zhang,
Abstract要約: The Flow of Truth is first proactive framework focus on temporal forensics in I2V generation。重要な課題は、生成プロセスと一貫して進化できる法医学的なシグネチャを見つけることである。本稿では,画素の動きに追従する学習可能な法医学的テンプレートと,画像の内容から動きを分離するテンプレート誘導フローモジュールを提案する。
参考スコア（独自算出の注目度）: 41.137734443859976
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid rise of image-to-video (I2V) generation enables realistic videos to be created from a single image but also brings new forensic demands. Unlike static images, I2V content evolves over time, requiring forensics to move beyond 2D pixel-level tampering localization toward tracing how pixels flow and transform throughout the video. As frames progress, embedded traces drift and deform, making traditional spatial forensics ineffective. To address this unexplored dimension, we present **Flow of Truth**, the first proactive framework focusing on temporal forensics in I2V generation. A key challenge lies in discovering a forensic signature that can evolve consistently with the generation process, which is inherently a creative transformation rather than a deterministic reconstruction. Despite this intrinsic difficulty, we innovatively redefine video generation as *the motion of pixels through time rather than the synthesis of frames*. Building on this view, we propose a learnable forensic template that follows pixel motion and a template-guided flow module that decouples motion from image content, enabling robust temporal tracing. Experiments show that Flow of Truth generalizes across commercial and open-source I2V models, substantially improving temporal forensics performance.
Abstract（参考訳）: 画像間ビデオ(I2V)生成の急速な増加により、単一の画像からリアルなビデオを作成することができるだけでなく、新たな法医学的要求ももたらされる。静的画像とは異なり、I2Vコンテンツは時間の経過とともに進化し、2Dピクセルレベルのタンパリングローカライゼーションを超えて、ビデオ全体のピクセルのフローと変換の追跡を行う必要がある。フレームが進むにつれて、埋め込んだ痕跡が漂って変形し、伝統的な空間法医学は効果がない。この未探索次元に対処するため、I2V生成における時間法学に焦点をあてた最初の前向きなフレームワークであるTrath**の**Flowを提示する。重要な課題は、決定論的再構成ではなく本質的に創造的な変換である生成プロセスと一貫して進化できる法医学的な署名を見つけることである。このような本質的な難しさにもかかわらず、我々はビデオ生成を「フレームの合成」ではなく「時間によるピクセルの動き」として革新的に再定義する。この観点から,画素の動きに追従する学習可能な法医学的テンプレートと,画像の内容から動きを分離するテンプレート誘導フローモジュールを提案する。実験により、Flow of Truthは商用およびオープンソースI2Vモデルにまたがって一般化され、時間法医学のパフォーマンスが大幅に向上することが示された。

関連論文リスト

UniVid: Pyramid Diffusion Model for High Quality Video Generation [10.349192062369088]
拡散に基づくテキスト・ツー・ビデオ生成(T2V)や画像・ツー・ビデオ生成(I2V)が注目されている。テキストプロンプトと参照画像のハイブリッド条件を用いた統合ビデオ生成モデル(UniVid)を提案する。
論文参考訳（メタデータ） (2026-03-14T03:51:16Z)
WaTeRFlow: Watermark Temporal Robustness via Flow Consistency [46.206343565195375]
We present WaTeRFlow, a framework designed for robustness under I2V。エンコーダデコーダは、トレーニング中に命令駆動の編集と高速なビデオ拡散プロキシを通じて、現実的な歪みに晒される。代表的I2Vモデルに対する実験では、フレームから正確なウォーターマーク回復を示し、フレーム単位の精度とレジリエンスが向上した。
論文参考訳（メタデータ） (2025-12-22T05:33:59Z)
Consistent Video Editing as Flow-Driven Image-to-Video Generation [6.03121849763522]
FlowV2Vはパイプライン全体を1フレームの編集と条件付きI2V生成に分解し、変形した形状に整合した擬似フローシーケンスをシミュレートする。 DAVIS-EDITによるDOVERの13.67%と50.66%の改善とワープエラーによる実験の結果は、既存の最先端のものと比較して、FlowV2Vの時間的一貫性とサンプル品質が優れていることを示している。
論文参考訳（メタデータ） (2025-06-09T12:57:30Z)
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators [56.01348424615965]
textbfChronoMagicと呼ばれるタイムラプスビデオテキストデータセットを作成し、メタモルフィックビデオ生成能力を解放する。実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を示す。
論文参考訳（メタデータ） (2024-04-07T16:49:07Z)
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文参考訳（メタデータ） (2024-01-16T05:10:50Z)
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文参考訳（メタデータ） (2023-12-07T17:59:07Z)
MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。 MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文参考訳（メタデータ） (2023-11-19T13:36:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。