論文の概要: Fast & Efficient Normalizing Flows and Applications of Image Generative Models
- arxiv url: http://arxiv.org/abs/2512.04039v1
- Date: Wed, 03 Dec 2025 18:29:03 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:09.279531
- Title: Fast & Efficient Normalizing Flows and Applications of Image Generative Models
- Title(参考訳): 高速かつ効率的な正規化流れと画像生成モデルの応用
- Authors: Sandeep Nagar,
- Abstract要約: 理論は、生成モデルの効率を向上すること、特にフローの正規化、および現実のコンピュータビジョンの課題を解決するために生成モデルを適用することである。
第1部では,6つの重要なイノベーションを通じて,フローアーキテクチャの正規化に関する大幅な改善が紹介されている。 1) 数学的に証明された必要条件と可逆性のための十分な条件を備えた3x3畳み込み層の開発,2) より効率的な擬似結合層の導入,3) kxk畳み込み層のための高速かつ効率的な並列反転アルゴリズムの設計,4) 畳み込み逆転用高速かつ効率的な逆プロパゲーションアルゴリズム,5) 逆畳み込みの逆利用
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This thesis presents novel contributions in two primary areas: advancing the efficiency of generative models, particularly normalizing flows, and applying generative models to solve real-world computer vision challenges. The first part introduce significant improvements to normalizing flow architectures through six key innovations: 1) Development of invertible 3x3 Convolution layers with mathematically proven necessary and sufficient conditions for invertibility, (2) introduction of a more efficient Quad-coupling layer, 3) Design of a fast and efficient parallel inversion algorithm for kxk convolutional layers, 4) Fast & efficient backpropagation algorithm for inverse of convolution, 5) Using inverse of convolution, in Inverse-Flow, for the forward pass and training it using proposed backpropagation algorithm, and 6) Affine-StableSR, a compact and efficient super-resolution model that leverages pre-trained weights and Normalizing Flow layers to reduce parameter count while maintaining performance. The second part: 1) An automated quality assessment system for agricultural produce using Conditional GANs to address class imbalance, data scarcity and annotation challenges, achieving good accuracy in seed purity testing; 2) An unsupervised geological mapping framework utilizing stacked autoencoders for dimensionality reduction, showing improved feature extraction compared to conventional methods; 3) We proposed a privacy preserving method for autonomous driving datasets using on face detection and image inpainting; 4) Utilizing Stable Diffusion based image inpainting for replacing the detected face and license plate to advancing privacy-preserving techniques and ethical considerations in the field.; and 5) An adapted diffusion model for art restoration that effectively handles multiple types of degradation through unified fine-tuning.
- Abstract(参考訳): この論文は、生成モデルの効率性の向上、特にフローの正規化、および現実のコンピュータビジョンの課題を解決するための生成モデルの適用の2つの分野において、新しい貢献を提示する。
第1部では,6つの重要なイノベーションを通じて,フローアーキテクチャの標準化に関する大幅な改善が紹介されている。
1) 数学的に証明された可逆性3x3畳み込み層の開発, (2) より効率的な擬似結合層の導入
3)kxk畳み込み層に対する高速かつ効率的な並列反転アルゴリズムの設計
4)畳み込みの逆転のための高速で効率的なバックプロパゲーションアルゴリズム
5)逆流の逆転を用いて,提案した逆伝播アルゴリズムを用いて前方通過と訓練を行い,
6) Affine-StableSRは、事前学習した重みと正規化フロー層を利用して、性能を維持しながらパラメータ数を減少させるコンパクトで効率的な超解像モデルである。
第二部:
1)クラス不均衡・データ不足・アノテーション問題に対処する条件付きGANを用いた農作物の自動品質評価システム
2) 自己エンコーダを積み重ねた非監督型地質地図作成フレームワークは,従来の手法に比べて特徴抽出が向上した。
3) 顔検出と画像インパインティングを用いた自律運転データセットのプライバシー保護手法を提案する。
4) 検出された顔と免許プレートを交換するための安定拡散に基づく画像塗布を用いて, 分野におけるプライバシー保護技術及び倫理的配慮を推し進める。
;そして
5) 統一微調整による複数種類の劣化を効果的に処理するアート修復のための適応拡散モデル。
関連論文リスト
- 4KDehazeFlow: Ultra-High-Definition Image Dehazing via Flow Matching [47.857232695201645]
4KDehazeFlowはフローマッチングとHaze-Awareベクトル場に基づく新しい手法である。
高品質な脱ハージングのための効率的なデータ駆動適応型非線形色変換を提供する。
2dBのPSNR増加と高密度の迷路と色忠実度の性能向上を実現している。
論文 参考訳(メタデータ) (2025-11-12T07:16:52Z) - Harnessing Input-Adaptive Inference for Efficient VLN [13.847596428283861]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における新たなパラダイムは、歴史を意識したマルチモーダルトランスモデルの利用である。
本稿では,VLNモデルの効率を向上させるための新しい入力適応ナビゲーション手法を提案する。
論文 参考訳(メタデータ) (2025-08-12T18:05:33Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers [10.84639914909133]
フローベースのトランスフォーマーモデルは、最先端の画像生成性能を達成しているが、しばしば高い推論遅延と計算コストに悩まされている。
本稿では, 時間的, 空間的, 建築的次元にわたって生成過程を分解するBridged Progressive Rectified Flow Transformers (NAMI)を提案する。
論文 参考訳(メタデータ) (2025-03-12T10:38:58Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Variational Bayes image restoration with compressive autoencoders [6.689746581015932]
逆問題の正規化は、計算イメージングにおいて最重要となる。
本研究では,まず,最先端生成モデルの代わりに変分オートエンコーダを提案する。
第2の貢献として、変分推論内で潜時推定を行う変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:49:31Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。