論文の概要: GimmBO: Interactive Generative Image Model Merging via Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2601.18585v1
- Date: Mon, 26 Jan 2026 15:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.899182
- Title: GimmBO: Interactive Generative Image Model Merging via Bayesian Optimization
- Title(参考訳): GimmBO:ベイジアン最適化によるインタラクティブな生成画像モデル統合
- Authors: Chenxi Liu, Selena Ling, Alec Jacobson,
- Abstract要約: 高次元空間におけるサンプリング効率と収束性を改善する2段階BOバックエンドを提案する。
提案手法をシミュレーションユーザとユーザスタディで評価し,改善されたコンバージェンス,高い成功率,BOおよびライン検索ベースラインに対する一貫した利得を示す。
- 参考スコア(独自算出の注目度): 24.200664737879162
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning-based adaptation is widely used to customize diffusion-based image generation, leading to large collections of community-created adapters that capture diverse subjects and styles. Adapters derived from the same base model can be merged with weights, enabling the synthesis of new visual results within a vast and continuous design space. To explore this space, current workflows rely on manual slider-based tuning, an approach that scales poorly and makes weight selection difficult, even when the candidate set is limited to 20-30 adapters. We propose GimmBO to support interactive exploration of adapter merging for image generation through Preferential Bayesian Optimization (PBO). Motivated by observations from real-world usage, including sparsity and constrained weight ranges, we introduce a two-stage BO backend that improves sampling efficiency and convergence in high-dimensional spaces. We evaluate our approach with simulated users and a user study, demonstrating improved convergence, high success rates, and consistent gains over BO and line-search baselines, and further show the flexibility of the framework through several extensions.
- Abstract(参考訳): ファインチューニングベースの適応は拡散ベースの画像生成をカスタマイズするために広く使われており、様々な主題やスタイルをキャプチャするコミュニティが作成したアダプタが大量に収集されている。
同じベースモデルから派生したアダプタは重みにマージすることができ、広大かつ連続した設計空間内で新しい視覚結果の合成を可能にする。
この領域を探索するために、現在のワークフローは手動スライダベースのチューニングに依存している。これは、候補セットが20-30アダプタに制限されている場合でも、スケールが悪く、ウェイトセレクションが難しいアプローチである。
本稿では,PBO(Preferential Bayesian Optimization)による画像生成のためのアダプタマージの対話的探索を支援するGimBOを提案する。
高次元空間におけるサンプリング効率と収束性を改善する2段階BOバックエンドを導入する。
提案手法をシミュレーションユーザとユーザスタディで評価し,改良された収束性,高い成功率,BOおよびライン検索ベースラインに対する一貫した利得を示し,さらにいくつかの拡張によるフレームワークの柔軟性を示す。
関連論文リスト
- Learnable Query Aggregation with KV Routing for Cross-view Geo-localisation [12.484512905649309]
クロスビュージオローカライゼーション(CVGL)は,大規模データベースの画像と照合することで,クエリ画像の地理的位置を推定することを目的としている。
これらの課題に対処するために,3つの改良点を取り入れたCVGLシステムを提案する。
論文 参考訳(メタデータ) (2025-12-30T01:51:52Z) - Finetuning-Free Personalization of Text to Image Generation via Hypernetworks [15.129799519953139]
被写体画像から直接LoRA適応重量を予測するHypernetworksによる微調整不要なパーソナライゼーションを提案する。
提案手法はパーソナライズ性能を向上し,オープンカテゴリパーソナライズのためのスケーラブルで効果的な方向としてのハイパーネットワークの約束を強調する。
論文 参考訳(メタデータ) (2025-11-05T03:31:33Z) - Dynamic Classifier-Free Diffusion Guidance via Online Feedback [53.54876309092376]
ワンサイズオール"アプローチは、異なるプロンプトの多様な要件に適応できない。
動的CFGスケジューリングのためのフレームワークを提案する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-19T16:27:19Z) - Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding [29.191627597682597]
本稿では,ユーザの好みに合わせた報酬モデルを活用し,フィードバックをループに組み込んだフレームワークを提案する。
このアプローチは、特にマルチターン対話シナリオにおいて、ユーザの満足度において競合するモデルを一貫して上回ります。
論文 参考訳(メタデータ) (2025-04-25T09:35:02Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Towards Composable Distributions of Latent Space Augmentations [0.0]
本稿では、複数の拡張を簡単に組み合わせることができる潜在空間画像拡張のための構成可能なフレームワークを提案する。
我々のフレームワークは変分オートエンコーダアーキテクチャに基づいており、潜在空間自体の線形変換による拡張に新しいアプローチを採用している。
これらの特性は、特定の拡張のペアでより優れたパフォーマンスを示すが、潜在空間を他の拡張のセットに転送してパフォーマンスを変更することができる。
論文 参考訳(メタデータ) (2023-03-06T19:37:01Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。