論文の概要: Beyond Fine-Tuning: A Systematic Study of Sampling Techniques in Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2502.05895v1
- Date: Sun, 09 Feb 2025 13:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:01.679913
- Title: Beyond Fine-Tuning: A Systematic Study of Sampling Techniques in Personalized Image Generation
- Title(参考訳): ファインチューニングを超えて:パーソナライズされた画像生成におけるサンプリング手法の体系的研究
- Authors: Vera Soboleva, Maksim Nakhodnov, Aibek Alanov,
- Abstract要約: 学習概念の忠実さと、様々な文脈で生成する能力のバランスをとることは、重大な課題である。
既存の手法はしばしば、様々な微調整パラメータ化とサンプリング戦略の改善を通じてこの問題に対処する。
本稿では,テキストアライメント,計算制約,忠実度を判定し,戦略選択を導くためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.9631016562930546
- License:
- Abstract: Personalized text-to-image generation aims to create images tailored to user-defined concepts and textual descriptions. Balancing the fidelity of the learned concept with its ability for generation in various contexts presents a significant challenge. Existing methods often address this through diverse fine-tuning parameterizations and improved sampling strategies that integrate superclass trajectories during the diffusion process. While improved sampling offers a cost-effective, training-free solution for enhancing fine-tuned models, systematic analyses of these methods remain limited. Current approaches typically tie sampling strategies with fixed fine-tuning configurations, making it difficult to isolate their impact on generation outcomes. To address this issue, we systematically analyze sampling strategies beyond fine-tuning, exploring the impact of concept and superclass trajectories on the results. Building on this analysis, we propose a decision framework evaluating text alignment, computational constraints, and fidelity objectives to guide strategy selection. It integrates with diverse architectures and training approaches, systematically optimizing concept preservation, prompt adherence, and resource efficiency. The source code can be found at https://github.com/ControlGenAI/PersonGenSampler.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成は、ユーザ定義の概念やテキスト記述に適したイメージを作成することを目的としている。
学習概念の忠実さと、様々な文脈で生成する能力のバランスをとることは、重大な課題である。
既存の手法では、様々な微調整パラメータ化を通じてこの問題に対処し、拡散過程においてスーパークラス軌道を統合するサンプリング戦略を改善している。
改良されたサンプリングは、微調整モデルを改善するための費用対効果の高いトレーニング不要のソリューションを提供するが、これらの手法の体系的分析は限定的のままである。
現在のアプローチでは、サンプリング戦略を固定された微調整構成と結びつけるのが一般的である。
この問題に対処するために,我々は,微調整以上のサンプリング戦略を体系的に分析し,概念とスーパークラスの軌道が結果に与える影響を探索する。
本分析に基づいて,テキストアライメント,計算制約,忠実度を判定し,戦略選択を導出する枠組みを提案する。
多様なアーキテクチャとトレーニングアプローチを統合し、概念保存を体系的に最適化し、迅速な順守とリソース効率を向上する。
ソースコードはhttps://github.com/ControlGenAI/PersonGenSamplerにある。
関連論文リスト
- Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation [4.748931281307333]
本稿では,個々のニューラルネットワーク層に対して最適なビット幅と層幅を自動的に選択する革新的な探索機構を提案する。
これにより、ディープニューラルネットワークの効率が著しく向上する。
論文 参考訳(メタデータ) (2023-08-12T00:16:51Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - A Collection of Deep Learning-based Feature-Free Approaches for
Characterizing Single-Objective Continuous Fitness Landscapes [0.0]
ランドスケープの洞察は、問題を理解するだけでなく、ベンチマークセットの多様性と構成を評価するためにも重要である。
本研究では、最適化ランドスケープを特徴付ける様々なアプローチのコレクションを提供する。
我々は、Deep Learningの助けを借りて、BBOBテストベッド上で考案した手法を実証し、検証し、予測する。
論文 参考訳(メタデータ) (2022-04-12T12:46:31Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Progressive Multi-Stage Learning for Discriminative Tracking [25.94944743206374]
本稿では,頑健な視覚追跡のためのサンプル選択の段階的多段階最適化ポリシを用いた共同識別学習手法を提案する。
提案手法は, 時間重み付き, 検出誘導型セルフペースト学習戦略により, 簡単なサンプル選択を行う。
ベンチマークデータセットの実験では、提案した学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-04-01T07:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。