Fugu-MT 論文翻訳(概要): Bellman Optimal Step-size Straightening of Flow-Matching Models

論文の概要: Bellman Optimal Step-size Straightening of Flow-Matching Models

arxiv url: http://arxiv.org/abs/2312.16414v2
Date: Wed, 10 Jan 2024 10:34:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 16:29:13.899009
Title: Bellman Optimal Step-size Straightening of Flow-Matching Models
Title（参考訳）: 流れマッチングモデルのベルマン最適ステップサイズストライニング
Authors: Bao Nguyen, Binh Nguyen, Viet Anh Nguyen
Abstract要約: 本稿では,フローマッチング生成モデルを蒸留するためのBellman Optimal Step-Size Straightening (BOSS)技術を紹介する。 BOSSは特に、計算予算の制約に固執しながら、数ステップの効率的な画像サンプリングを目的としている。以上の結果から,BOSSは競争力のあるサンプル品質を維持しつつ,効率の大幅な向上を実現していることが明らかとなった。
参考スコア（独自算出の注目度）: 14.920260435839992
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Flow matching is a powerful framework for generating high-quality samples in various applications, especially image synthesis. However, the intensive computational demands of these models, especially during the fine-tuning process and sampling processes, pose significant challenges for low-resource scenarios. This paper introduces Bellman Optimal Step-size Straightening (BOSS) technique for distilling flow-matching generative models: it aims specifically for a few-step efficient image sampling while adhering to a computational budget constraint. First, this technique involves a dynamic programming algorithm that optimizes the step sizes of the pretrained network. Then, it refines the velocity network to match the optimal step sizes, aiming to straighten the generation paths. Extensive experimental evaluations across image generation tasks demonstrate the efficacy of BOSS in terms of both resource utilization and image quality. Our results reveal that BOSS achieves substantial gains in efficiency while maintaining competitive sample quality, effectively bridging the gap between low-resource constraints and the demanding requirements of flow-matching generative models. Our paper also fortifies the responsible development of artificial intelligence, offering a more sustainable generative model that reduces computational costs and environmental footprints. Our code can be found at https://github.com/nguyenngocbaocmt02/BOSS.
Abstract（参考訳）: フローマッチングは、様々なアプリケーション、特に画像合成で高品質なサンプルを生成するための強力なフレームワークである。しかしながら、特に微調整プロセスやサンプリングプロセスにおいて、これらのモデルの集中的な計算要求は、低リソースシナリオにとって大きな課題となる。本稿では,フローマッチング生成モデルを蒸留するためのBellman Optimal Step-Size Straightening (BOSS)技術について紹介する。第一に、この手法は事前訓練されたネットワークのステップサイズを最適化する動的プログラミングアルゴリズムを含む。そして、速度ネットワークを改良して最適なステップサイズに適合させ、生成経路を直線化する。画像生成タスクに対する大規模な実験的評価は、資源利用と画質の両方の観点から、BOSSの有効性を示す。以上の結果から,BOSSは,低リソース制約とフローマッチング生成モデルの要求条件とのギャップを効果的に埋めつつ,競争力のあるサンプル品質を維持しながら,効率を大幅に向上することがわかった。私たちの論文は、人工知能の責任ある開発を強化し、計算コストと環境フットプリントを削減する、より持続可能な生成モデルを提供します。私たちのコードはhttps://github.com/nguyenngocbaocmt02/bossにあります。

関連論文リスト

Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文参考訳（メタデータ） (2024-10-16T13:34:40Z)
Efficient Point Cloud Classification via Offline Distillation Framework and Negative-Weight Self-Distillation Technique [46.266960248570086]
本稿では,教師モデルと生徒モデルの両方の同時ロードを回避する,革新的なオフライン記録戦略を提案する。このアプローチは教師モデルに多数の追加サンプルを投入し、データ拡張パラメータと対応するロジット出力の両方を記録する。実験により, 提案した蒸留方式により, 学生モデルが最先端モデルに匹敵する性能を達成できることが実証された。
論文参考訳（メタデータ） (2024-09-03T16:12:12Z)
Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文参考訳（メタデータ） (2024-07-03T17:34:55Z)
Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis [82.72941975704374]
非自己回帰変換器(NAT)は、その急速な世代で認識されている。トレーニング戦略と推論戦略の設計を再考することにより、NATの潜在能力を再評価する。自動フレームワークで最適な戦略を直接解き、既存の手法を超えることを提案する。
論文参考訳（メタデータ） (2024-06-08T13:52:20Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
Model-Agnostic Human Preference Inversion in Diffusion Models [31.992947353231564]
人間の好みに合わせて高品質なワンステップ画像生成を実現するための新しいサンプリング設計を提案する。提案手法であるPrompt Adaptive Human Preference Inversion (PAHI) は,人間の好みに基づいて各プロンプトの雑音分布を最適化する。実験により, 調整したノイズ分布は, 計算コストを極端に増加させるだけで, 画像品質を著しく向上させることを示した。
論文参考訳（メタデータ） (2024-04-01T03:18:12Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
EDGE++: Improved Training and Sampling of EDGE [17.646159460584926]
これらの問題に対処するために,EDGEモデルの強化を提案する。具体的には,各時刻におけるアクティブノード数を最適化する等級別ノイズスケジュールを導入する。また、生成過程を微調整し、合成されたネットワークと真のネットワークとの類似性をよりよく制御できる改良されたサンプリング手法を提案する。
論文参考訳（メタデータ） (2023-10-22T22:54:20Z)
Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文参考訳（メタデータ） (2023-07-17T17:57:56Z)
An Adversarial Active Sampling-based Data Augmentation Framework for Manufacturable Chip Design [55.62660894625669]
リソグラフィーモデリングは、チップ設計マスクが製造可能であることを保証するため、チップ設計において重要な問題である。機械学習の最近の進歩は、時間を要するリソグラフィーシミュレーションをディープニューラルネットワークに置き換えるための代替ソリューションを提供している。本稿では,限られたデータのジレンマを解消し,機械学習モデルの性能を向上させるために,データ拡張フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-27T20:53:39Z)
DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文参考訳（メタデータ） (2022-03-21T18:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。