Fugu-MT 論文翻訳(概要): SyncTweedies: A General Generative Framework Based on Synchronized Diffusions

論文の概要: SyncTweedies: A General Generative Framework Based on Synchronized Diffusions

arxiv url: http://arxiv.org/abs/2403.14370v1
Date: Thu, 21 Mar 2024 12:57:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 14:18:45.503006
Title: SyncTweedies: A General Generative Framework Based on Synchronized Diffusions
Title（参考訳）: SyncTweedies: 同期拡散に基づく一般的な生成フレームワーク
Authors: Jaihoon Kim, Juil Koo, Kyeongmin Yeo, Minhyuk Sung,
Abstract要約: 正準空間を通した多重拡散過程の同期化のシナリオを網羅的に検討する。我々は、Tweedieの公式の出力を、複数のインスタンス空間で denoising を行いながら平均化するという、未探索のケースを明らかにした。上述した映像コンテンツを生成する実験では、SyncTweedies による生成の質が他の同期法と比較して優れていることを示す。
参考スコア（独自算出の注目度）: 11.292617528150291
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a general framework for generating diverse visual content, including ambiguous images, panorama images, mesh textures, and Gaussian splat textures, by synchronizing multiple diffusion processes. We present exhaustive investigation into all possible scenarios for synchronizing multiple diffusion processes through a canonical space and analyze their characteristics across applications. In doing so, we reveal a previously unexplored case: averaging the outputs of Tweedie's formula while conducting denoising in multiple instance spaces. This case also provides the best quality with the widest applicability to downstream tasks. We name this case SyncTweedies. In our experiments generating visual content aforementioned, we demonstrate the superior quality of generation by SyncTweedies compared to other synchronization methods, optimization-based and iterative-update-based methods.
Abstract（参考訳）: 複数の拡散過程を同期させることにより、あいまいな画像、パノラマ画像、メッシュテクスチャ、ガウススプレートテクスチャを含む多様な視覚コンテンツを生成するための一般的なフレームワークを導入する。本稿では,複数の拡散過程を標準空間で同期化するためのすべてのシナリオを網羅的に検討し,その特性をアプリケーション間で解析する。そのような場合、探索されていないケースとして、Tweedieの公式の出力を平均化しながら、複数のインスタンス空間で denoising を行う。このケースは、ダウンストリームタスクに最も適用可能な、最高の品質も提供します。このケースをSyncTweediesと名付けます。上述したビジュアルコンテンツを生成する実験では、SyncTweediesが他の同期法、最適化法、反復更新法と比較して優れた生成品質を示す。

関連論文リスト

Beyond Audio and Pose: A General-Purpose Framework for Video Synchronization [1.7820202405704466]
ビデオ同期は、リアリティ番組制作、スポーツ分析、監視、自律システムなどのアプリケーションに不可欠である。以前の作業はオーディオキューや特定の視覚イベントに大きく依存しており、さまざまな設定で適用性を制限する。本稿では,特定の特徴抽出手法とは独立して動作するビデオ同期フレームワークであるVideoSyncを紹介する。
論文参考訳（メタデータ） (2025-06-19T00:41:21Z)
Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文参考訳（メタデータ） (2025-06-09T16:20:20Z)
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文参考訳（メタデータ） (2025-03-30T09:40:42Z)
Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-03-11T16:43:45Z)
StochSync: Stochastic Diffusion Synchronization for Image Generation in Arbitrary Spaces [11.517082612850443]
本稿では,事前学習した画像拡散モデルを用いて任意の空間で画像を生成する手法を提案する。ゼロショット法は、画像条件付けと3Dメッシュ法の両方の長所を組み合わせたものである。
論文参考訳（メタデータ） (2025-01-26T08:22:44Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文参考訳（メタデータ） (2024-02-29T04:21:38Z)
Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文参考訳（メタデータ） (2024-01-29T18:59:55Z)
Highly Detailed and Temporal Consistent Video Stylization via Synchronized Multi-Frame Diffusion [22.33952368534147]
テキストガイド付きビデオ・ビデオ・スタイリングは、ソースビデオの視覚的な外観を、テキストプロンプトでガイドされた異なる外観に変換する。既存のテキスト誘導画像拡散モデルは、スタイリングされたビデオ合成のために拡張することができる。視覚的詳細と時間的整合性の両方を維持するための同期多フレーム拡散フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-24T08:38:19Z)
Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文参考訳（メタデータ） (2023-07-04T17:31:50Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。