論文の概要: Two-flow Feedback Multi-scale Progressive Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2508.16089v1
- Date: Fri, 22 Aug 2025 04:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.25282
- Title: Two-flow Feedback Multi-scale Progressive Generative Adversarial Network
- Title(参考訳): 2フローフィードバック マルチスケールプログレッシブ・ジェネレーティブ・ジェネラル・ネットワーク
- Authors: Sun Weikai, Song Shijie, Chi Wenjie,
- Abstract要約: GANモデルのための新しい2フローフィードバックマルチスケールプログレッシブ・デグレッシブ・ディベザリ・ネットワーク(MSPGSEN)を提案する。
MSPG-SENは、既存のGANモデルの利点を保ちながら、画質と人間の視覚的知覚を改善する。
また、トレーニングプロセスを簡素化し、GANネットワークのトレーニングコストを削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although diffusion model has made good progress in the field of image generation, GAN\cite{huang2023adaptive} still has a large development space due to its unique advantages, such as WGAN\cite{liu2021comparing}, SSGAN\cite{guibas2021adaptive} \cite{zhang2022vsa} \cite{zhou2024adapt} and so on. In this paper, we propose a novel two-flow feedback multi-scale progressive generative adversarial network (MSPG-SEN) for GAN models. This paper has four contributions: 1) : We propose a two-flow feedback multi-scale progressive Generative Adversarial network (MSPG-SEN), which not only improves image quality and human visual perception on the basis of retaining the advantages of the existing GAN model, but also simplifies the training process and reduces the training cost of GAN networks. Our experimental results show that, MSPG-SEN has achieved state-of-the-art generation results on the following five datasets,INKK The dataset is 89.7\%,AWUN The dataset is 78.3\%,IONJ The dataset is 85.5\%,POKL The dataset is 88.7\%,OPIN The dataset is 96.4\%. 2) : We propose an adaptive perception-behavioral feedback loop (APFL), which effectively improves the robustness and training stability of the model and reduces the training cost. 3) : We propose a globally connected two-flow dynamic residual network(). After ablation experiments, it can effectively improve the training efficiency and greatly improve the generalization ability, with stronger flexibility. 4) : We propose a new dynamic embedded attention mechanism (DEMA). After experiments, the attention can be extended to a variety of image processing tasks, which can effectively capture global-local information, improve feature separation capability and feature expression capabilities, and requires minimal computing resources only 88.7\% with INJK With strong cross-task capability.
- Abstract(参考訳): 拡散モデルは画像生成の分野で大きな進歩を遂げているが、WGAN\cite{liu2021comparing}, SSGAN\cite{guibas2021adaptive} \cite{zhang2022vsa} \cite{zhou2024adapt} など、独自の利点があるため、GAN\cite{huang2023adaptive} は大きな開発空間を持つ。
本稿では,GANモデルのための新しい2フローフィードバック型マルチスケールプログレッシブ・ジェネレーティブ・ディベザリ・ネットワーク(MSPG-SEN)を提案する。
本論文には4つのコントリビューションがある。
1) 既存のGANモデルの利点を保ちながら、画像品質と人間の視覚知覚を向上させるとともに、トレーニングプロセスを簡素化し、GANネットワークのトレーニングコストを削減できる2フローフィードバックマルチスケール・プログレッシブ・ジェネレーティブ・アドバイサル・ネットワーク(MSPG-SEN)を提案する。
実験の結果,MSPG-SENは以下の5つのデータセットに対して最先端の生成結果を得た。INKKデータセットは89.7\%,AWUNデータセットは78.3\%,IONJデータセットは85.5\%,POKLデータセットは88.7\%,OPINデータセットは96.4\%である。
2) 適応的知覚行動フィードバックループ (APFL) を提案し, モデルの堅牢性とトレーニング安定性を効果的に向上し, トレーニングコストを低減させる。
3) グローバル接続型2フロー動的残留ネットワークを提案する。
アブレーション実験の後、トレーニング効率を効果的に改善し、より強力な柔軟性で一般化能力を大幅に向上させることができる。
4)新しい動的埋め込み注意機構(DEMA)を提案する。
実験の後、様々な画像処理タスクに注意を向けることができ、グローバルローカルな情報を効果的にキャプチャし、特徴分離能力と特徴表現能力を改善し、強力なクロスタスク機能を持つINJKでは88.7%しか必要としない。
関連論文リスト
- DSFormer: A Dual-Scale Cross-Learning Transformer for Visual Place Recognition [16.386674597850778]
本稿では,TransformerベースのクロスラーニングモジュールであるDual-Scale-Former(DSFormer)と,革新的なブロッククラスタリング戦略を統合する新しいフレームワークを提案する。
提案手法は,ほとんどのベンチマークデータセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-24T14:29:30Z) - Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。
ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。
収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文 参考訳(メタデータ) (2025-06-23T15:20:58Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data [1.0901840476380924]
本稿では,大規模ラベル付きデータセットへの依存を減らすために,新しい二重領域拡張手法を提案する。
提案手法は,前景オブジェクトにランダムノイズ摂動を適用することで,対象データ変換を行う。
構造化変換によるトレーニングデータの拡大により,ドメイン間のモデル一般化が可能となる。
論文 参考訳(メタデータ) (2025-04-17T16:42:33Z) - Residual Connections Harm Generative Representation Learning [22.21222349477351]
残差ネットワークにおけるアイデンティティショートカットの影響を低減するために重み付け係数を導入することで、意味的特徴学習が大幅に向上することを示す。
我々の設計は、ネットワークのトレーニング容易性に影響を与えることなく、機能抽象化の段階的な開発を促進する。
論文 参考訳(メタデータ) (2024-04-16T23:05:17Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。