論文の概要: GuidedBridge: Training-freely Improving Bridge Models with Prior Guidance
- arxiv url: http://arxiv.org/abs/2606.03119v1
- Date: Tue, 02 Jun 2026 04:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.749748
- Title: GuidedBridge: Training-freely Improving Bridge Models with Prior Guidance
- Title(参考訳): GuidedBridge: 事前指導によるトレーニングフリーなブリッジモデルの改善
- Authors: Zehua Chen, Yucheng Yang, Binjie Yuan, Kaiwen Zheng, Jun S. Liu, Jun Zhu,
- Abstract要約: 我々は、事前指導(PG)と呼ばれる訓練不要な橋梁誘導手法を提案する。
橋梁プレトレーニング中に見えなくなる弱い前処理を導入し, 事前利用を阻害し, 劣化の結果を劣化させる。
そこで我々はCFG-FMPGというカスケードフレームワークを開発し、まずCFGを介してノイズの多い隠れ表現を生成し、FMPGで生成する前駆体として利用した。
- 参考スコア(独自算出の注目度): 33.44875693935854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guidance methods, such as classifier-free guidance (CFG) and auto-guidance (AG), have advanced noise-to-data generation in diffusion models. Recently, bridge models have introduced a data-to-data generative process that can exploit an instructive clean prior. In this work, inspired by previous methods creating quality difference between denoising results as guidance, we propose a training-free bridge guidance method, termed Prior Guidance (PG). Specifically, we introduce a weak prior, which is unseen during bridge pre-training, hindering prior exploitation and thereby degrading denoising result. Then, we contrast it with the seen prior to highlight and enhance prior exploitation via a scaling factor. Moreover, we analyze the underlying mechanism of prior exploitation in the bridge process and design frequency-modulated prior guidance (FMPG), which tailors the guidance scale to low- and high-frequency bands coherent with bridge generative dynamics. To address prior exploitation in image in-painting, we develop a cascaded framework, CFG-FMPG, which first generates a noisy hidden representation via CFG and then exploits it as a generative prior with FMPG, fulfilling their complementary strengths without compromising inference efficiency. Experiments demonstrate that our PG methods consistently improve pre-trained bridge models across diverse image translation tasks.
- Abstract(参考訳): 分類器フリー誘導 (CFG) や自動誘導 (AG) のような誘導法は拡散モデルにおいて高度なノイズ・データ生成をもたらす。
近年、ブリッジモデルでは、データからデータへの生成プロセスを導入している。
本研究は,従来の手法にインスピレーションを得て,ディノケーション結果の質差をガイダンスとして生み出したもので,トレーニング不要なブリッジガイダンス手法である「プリエント・ガイダンス(PG)」を提案する。
具体的には,橋梁の事前訓練中に見られず,事前の活用を阻害し,劣化する結果を劣化させる弱い事前学習を導入する。
そして、スケーリングファクタによる事前のエクスプロイトを強調し、強化するために、前もって見たものと対比する。
さらに,橋梁における先行利用のメカニズムと設計周波数変調事前誘導(FMPG)を解析し,橋梁生成力学に則った低周波帯と高周波帯の誘導スケールを調整した。
画像インペインティングにおける事前の活用に対処するため,まずCFGを介してノイズの多い隠れ表現を生成し,FMPGに先行して生成として利用し,推論効率を損なうことなく補完的な強度を達成できるCFG-FMPGというフレームワークを開発した。
実験により, PG法は多様な画像翻訳タスクにおいて, トレーニング済みブリッジモデルを一貫して改善することを示した。
関連論文リスト
- Your Pre-trained Diffusion Model Secretly Knows Restoration [55.7186754179308]
本研究では,事前学習した拡散モデルが本質的に復元動作を有しており,即時埋め込みを直接学習することで解錠可能であることを示す。
トレーニング済みのWANビデオモデルとFLUX画像モデルに軽量な学習プロンプトを導入し、それらを高性能な復元モデルに変換する。
論文 参考訳(メタデータ) (2026-04-06T17:59:04Z) - Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。
本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。
文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文 参考訳(メタデータ) (2025-12-24T07:07:08Z) - DGS-Net: Distillation-Guided Gradient Surgery for CLIP Fine-Tuning in AI-Generated Image Detection [18.12379637088218]
本稿では、タスク非関連コンポーネントを抑えつつ、転送可能な事前学習を保存できる新しいフレームワークを提案する。
50の生成モデルに対する実験により,本手法は平均マージン6.6で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-11-17T08:05:31Z) - Noise-Level Diffusion Guidance: Well Begun is Half Done [9.745109820010601]
ノイズレベルガイダンス(NLG)は、単純で効率的で一般的なノイズレベル最適化手法である。
一般的な誘導との整合性を高めることにより、初期雑音を改善させる。
本手法は,拡散モデルに対する実用的でスケーラブルな拡張としてNLGを確立する。
論文 参考訳(メタデータ) (2025-09-17T13:05:59Z) - Directional Gradient Projection for Robust Fine-Tuning of Foundation Models [25.04763038570959]
ディディショナル・グラディエント・プロジェクション(DiGraP)は、グラデーションからブリッジの正規化や多目的最適化に至るまでの方向性情報を階層的に学習可能な手法である。
まず,画像分類による視覚質問回答 (VQA) ベンチマークの分析により,一様・多モードのギャップを埋める。
実験結果から,DiGraPは画像分類やVQAタスクにおいて,識別的,生成的バックボーンで既存のベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-02-21T19:31:55Z) - DPBridge: Latent Diffusion Bridge for Dense Prediction [49.1574468325115]
DPBridgeは、密度予測タスクのための最初の潜伏拡散ブリッジフレームワークである。
提案手法は,異なるシナリオ下での有効性と能力の一般化を実証し,優れた性能を継続的に達成する。
論文 参考訳(メタデータ) (2024-12-29T15:50:34Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - JPEG Artifact Correction using Denoising Diffusion Restoration Models [110.1244240726802]
本稿では,DDRM(Denoising Diffusion Restoration Models)に基づいて,非線形逆問題の解法を提案する。
我々は、DDRMで使用される擬逆演算子を活用し、この概念を他の測度演算子に一般化する。
論文 参考訳(メタデータ) (2022-09-23T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。