論文の概要: Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2405.13218v2
- Date: Fri, 24 May 2024 13:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:58:14.024418
- Title: Computational Tradeoffs in Image Synthesis: Diffusion, Masked-Token, and Next-Token Prediction
- Title(参考訳): 画像合成における計算トレードオフ:拡散, マスケ-トケン, 次点予測
- Authors: Maciej Kilian, Varun Jampani, Luke Zettlemoyer,
- Abstract要約: 拡散、マスク付きトーケン予測、および次のトーケン予測はすべてトランスフォーマーネットワークアーキテクチャを使用する。
FLOPで測定された計算予算のレンズを用いて,各手法のスケーラビリティを解析する。
次点予測によって導かれるトークン予測手法は, 後続のプロンプト上での拡散率を著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 79.78050867137594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nearly every recent image synthesis approach, including diffusion, masked-token prediction, and next-token prediction, uses a Transformer network architecture. Despite this common backbone, there has been no direct, compute controlled comparison of how these approaches affect performance and efficiency. We analyze the scalability of each approach through the lens of compute budget measured in FLOPs. We find that token prediction methods, led by next-token prediction, significantly outperform diffusion on prompt following. On image quality, while next-token prediction initially performs better, scaling trends suggest it is eventually matched by diffusion. We compare the inference compute efficiency of each approach and find that next token prediction is by far the most efficient. Based on our findings we recommend diffusion for applications targeting image quality and low latency; and next-token prediction when prompt following or throughput is more important.
- Abstract(参考訳): 拡散、マスクトケン予測、次のトケン予測を含む最近の画像合成アプローチのほぼ全てが、Transformerネットワークアーキテクチャを使用している。
この一般的なバックボーンにもかかわらず、これらのアプローチがパフォーマンスと効率にどのように影響するかを直接、計算で制御された比較は行われていない。
FLOPで測定された計算予算のレンズを用いて,各手法のスケーラビリティを解析する。
次点予測によって導かれるトークン予測手法は, 後続のプロンプト上での拡散率を著しく上回ることがわかった。
画像の品質では、次点の予測は最初はより良い性能を示すが、スケーリングの傾向は最終的に拡散によって一致することを示唆している。
我々は,各手法の推論計算効率を比較し,次のトークン予測が最も効率的であることを示す。
この結果から,画像品質と低レイテンシをターゲットとしたアプリケーションへの拡散を推奨する。
関連論文リスト
- Channel-aware Contrastive Conditional Diffusion for Multivariate Probabilistic Time Series Forecasting [19.383395337330082]
本稿では,CCDM(Contrastive Conditional Diffusion)モデルを提案する。
提案したCCDMは,現在最先端の拡散予測器と比較して優れた予測能力を示すことができる。
論文 参考訳(メタデータ) (2024-10-03T03:13:15Z) - Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction [29.834614425056355]
拡散に基づく視覚基盤モデルであるLotusを導入する。
特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。
我々は,より正確できめ細かな予測が可能なディテールレザーと呼ばれる新しいチューニング戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T17:58:55Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Aligned Contrastive Predictive Coding [10.521845940927163]
対照的予測損失を用いて訓練された自己監督モデルが、ゆっくりと変化する潜在表現を抽出する可能性を研究する。
将来の表現ごとに個別の予測を生成するのではなく、モデルはそれらが整列する次の表現よりも短い一連の予測を出力する。
論文 参考訳(メタデータ) (2021-04-24T13:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。