論文の概要: AsyncDiff: Asynchronous Timestep Conditioning for Enhanced Text-to-Image Diffusion Inference
- arxiv url: http://arxiv.org/abs/2512.18675v1
- Date: Sun, 21 Dec 2025 10:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.452446
- Title: AsyncDiff: Asynchronous Timestep Conditioning for Enhanced Text-to-Image Diffusion Inference
- Title(参考訳): AsyncDiff: 拡張テキスト-画像拡散推論のための非同期タイムステップ条件
- Authors: Longhuan Xu, Feng Yin, Cunjian Chen,
- Abstract要約: 本稿では,テキストから画像への拡散スケジュールを分離する非同期推論機構を提案する。
軽量時間ステップ予測モジュール(TPM)は、現在の状態に基づいて、より実現可能な条件付け時間ステップを選択する。
計算コストを抑えるため、SD3.5は15ステップ、Fluxは10ステップで推論を行う。
- 参考スコア(独自算出の注目度): 12.428201810981149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion inference typically follows synchronized schedules, where the numerical integrator advances the latent state to the same timestep at which the denoiser is conditioned. We propose an asynchronous inference mechanism that decouples these two, allowing the denoiser to be conditioned at a different, learned timestep while keeping image update schedule unchanged. A lightweight timestep prediction module (TPM), trained with Group Relative Policy Optimization (GRPO), selects a more feasible conditioning timestep based on the current state, effectively choosing a desired noise level to control image detail and textural richness. At deployment, a scaling hyper-parameter can be used to interpolate between the original and de-synchronized timesteps, enabling conservative or aggressive adjustments. To keep the study computationally affordable, we cap the inference at 15 steps for SD3.5 and 10 steps for Flux. Evaluated on Stable Diffusion 3.5 Medium and Flux.1-dev across MS-COCO 2014 and T2I-CompBench datasets, our method optimizes a composite reward that averages Image Reward, HPSv2, CLIP Score and Pick Score, and shows consistent improvement.
- Abstract(参考訳): テキストと画像の拡散推論は通常同期スケジュールに従っており、数値積分器は遅延状態をデノイザが条件付けられた時と同じ時間ステップに進む。
本稿では,この2つを分離する非同期推論機構を提案する。
グループ相対ポリシー最適化(GRPO)で訓練された軽量時間ステップ予測モジュール(TPM)は、現在の状態に基づいてより実現可能な条件付き時間ステップを選択し、望まれるノイズレベルを効果的に選択し、画像の詳細とテクスチャのリッチさを制御する。
デプロイメントでは、スケーリングハイパーパラメータを使用して、オリジナルのタイムステップと非同期のタイムステップをインターポーラし、保守的あるいは攻撃的な調整を可能にする。
計算コストを抑えるため、SD3.5は15ステップ、Fluxは10ステップで推論を行う。
本手法は,MS-COCO 2014 と T2I-CompBench データセット間の安定拡散 3.5 Medium と Flux.1-dev に基づいて,画像リワード,HPSv2,CLIPスコア,ピックスコアの平均値の合成報酬を最適化し,一貫した改善を示す。
関連論文リスト
- PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis [39.58643124601554]
本稿では,高忠実かつ時間的コヒーレントな音声合成のための新しいフレームワークTARO(Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning)を提案する。
論文 参考訳(メタデータ) (2025-04-08T04:49:36Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision [13.447234794835921]
安定収束のために設計されたアーキテクチャを備えたStableSyncNetを紹介する。
提案手法は,HDTFおよびVoxCeleb2データセット上での様々な評価指標にまたがって,最先端のリップシンクアプローチを超越する。
論文 参考訳(メタデータ) (2024-12-12T13:20:52Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。