論文の概要: Memory-Efficient Personalization of Text-to-Image Diffusion Models via Selective Optimization Strategies
- arxiv url: http://arxiv.org/abs/2507.10029v2
- Date: Mon, 01 Sep 2025 05:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.520179
- Title: Memory-Efficient Personalization of Text-to-Image Diffusion Models via Selective Optimization Strategies
- Title(参考訳): 選択最適化手法によるテキスト・画像拡散モデルのメモリ効率の良いパーソナライゼーション
- Authors: Seokeon Choi, Sunghyun Park, Hyoungwoo Park, Jeongho Kim, Sungrack Yun,
- Abstract要約: 低解像度画像のバックプロパゲーション(BP-low)と高解像度画像のゼロ階最適化(ZO-high)を適応的に選択する選択最適化フレームワークを提案する。
提案手法は,メモリ消費を大幅に削減し,レイテンシを増大させることなく,スケーラブルで高品質なオンデバイスパーソナライゼーションを実現する。
- 参考スコア(独自算出の注目度): 20.358557194892484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory-efficient personalization is critical for adapting text-to-image diffusion models while preserving user privacy and operating within the limited computational resources of edge devices. To this end, we propose a selective optimization framework that adaptively chooses between backpropagation on low-resolution images (BP-low) and zeroth-order optimization on high-resolution images (ZO-high), guided by the characteristics of the diffusion process. As observed in our experiments, BP-low efficiently adapts the model to target-specific features, but suffers from structural distortions due to resolution mismatch. Conversely, ZO-high refines high-resolution details with minimal memory overhead but faces slow convergence when applied without prior adaptation. By complementing both methods, our framework leverages BP-low for effective personalization while using ZO-high to maintain structural consistency, achieving memory-efficient and high-quality fine-tuning. To maximize the efficacy of both BP-low and ZO-high, we introduce a timestep-aware probabilistic function that dynamically selects the appropriate optimization strategy based on diffusion timesteps. This function mitigates the overfitting from BP-low at high timesteps, where structural information is critical, while ensuring ZO-high is applied more effectively as training progresses. Experimental results demonstrate that our method achieves competitive performance while significantly reducing memory consumption, enabling scalable, high-quality on-device personalization without increasing inference latency.
- Abstract(参考訳): メモリ効率のパーソナライゼーションは、ユーザのプライバシを保持し、エッジデバイスの限られた計算リソース内で操作しながら、テキストから画像への拡散モデルを適用する上で重要である。
そこで本研究では,低解像度画像(BP-low)のバックプロパゲーションと高解像度画像(ZO-high)のゼロ階最適化を適応的に選択する最適化フレームワークを提案する。
実験で確認したように,BP-lowはターゲット固有の特徴に効率的に適応するが,分解ミスマッチによる構造歪みに悩まされる。
逆に、ZO-highはメモリオーバーヘッドを最小限に抑えた高解像度の詳細を洗練するが、事前適応なしに適用した場合は収束が遅くなる。
両手法を補完することにより, ZO-high を用いてメモリ効率と高品質な微調整を実現するとともに, BP-low を有効パーソナライズに活用する。
BP-lowとZO-highの有効性を最大化するために,拡散時間に基づく適切な最適化戦略を動的に選択する時間ステップ対応確率関数を導入する。
この関数は、ZO-highがトレーニングの進行に伴ってより効果的に適用されることを保証しながら、構造情報が重要となる高速でBP-lowからのオーバーフィッティングを緩和する。
実験により,提案手法はメモリ消費を大幅に削減し,推論遅延を増大させることなく,スケーラブルで高品質なオンデバイスパーソナライゼーションを実現する。
関連論文リスト
- Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。
対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。
決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文 参考訳(メタデータ) (2025-05-19T10:40:30Z) - SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity [30.260783715373382]
テスト時間適応(TTA)は、未ラベルのターゲットデータにオンラインで適応することで、ディープモデルの性能を向上させるために出現している。
しかし、特にリソース制約のある端末におけるメモリコストは、ほとんどの後方プロパゲーションベースのTTAメソッドの効果的な展開を妨げる。
メモリの制約に対処するため,SURGEONを導入する。
論文 参考訳(メタデータ) (2025-03-26T09:27:09Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。
タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。
最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文 参考訳(メタデータ) (2025-02-27T08:20:03Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement [0.7558576228782637]
我々は、効率的なソースフリードメイン適応(SFDA)のためのフレームワークを提案する。
提案手法は,ソースモデル作成およびターゲット側適応のための改良されたパラダイムを導入する。
我々は,本フレームワークが様々なSFDA法と互換性があり,計算効率が高いことを実証した。
論文 参考訳(メタデータ) (2024-10-03T02:12:03Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z) - ESTISR: Adapting Efficient Scene Text Image Super-resolution for
Real-Scenes [25.04435367653037]
シーンテキスト画像超解像(STISR)は、シーンテキストの正確な認識において顕著な改善をもたらした。
本稿では,資源限定配置プラットフォームのための高効率Scene Text Image Super- resolution (ESTISR) ネットワークを提案する。
ESTISRは、実際の実行時間とピークメモリ消費の点で、現在のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-06-04T19:14:44Z) - Pre-trained Gaussian Processes for Bayesian Optimization [24.730678780782647]
本稿では,HyperBO という事前学習型 BO フレームワークを提案する。
GPが既知の「地中真実」を仮定することなく, 後続の予測と, ほぼゼロの後悔をHyperBOに示す。
論文 参考訳(メタデータ) (2021-09-16T20:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。