論文の概要: DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2509.22793v1
- Date: Fri, 26 Sep 2025 18:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.875962
- Title: DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models
- Title(参考訳): DEFT:テキスト・画像モデルのための分解効率の良いファインチューニング
- Authors: Komal Kumar, Rao Muhammad Anwer, Fahad Shahbaz Khan, Salman Khan, Ivan Laptev, Hisham Cholakkal,
- Abstract要約: DEFT(Decompositional Efficient Fine-Tuning)は、事前トレーニングされた重み行列を2つのコンポーネントに分解することで適応する。
パーソナライズのためのDreamboothおよびDreambench Plusデータセット、オブジェクトおよびシーン適応のためのInsDetデータセット、ユニバーサル画像生成フレームワークのためのVisualClozeデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 103.18486625853099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient fine-tuning of pre-trained Text-to-Image (T2I) models involves adjusting the model to suit a particular task or dataset while minimizing computational resources and limiting the number of trainable parameters. However, it often faces challenges in striking a trade-off between aligning with the target distribution: learning a novel concept from a limited image for personalization and retaining the instruction ability needed for unifying multiple tasks, all while maintaining editability (aligning with a variety of prompts or in-context generation). In this work, we introduce DEFT, Decompositional Efficient Fine-Tuning, an efficient fine-tuning framework that adapts a pre-trained weight matrix by decomposing its update into two components with two trainable matrices: (1) a projection onto the complement of a low-rank subspace spanned by a low-rank matrix, and (2) a low-rank update. The single trainable low-rank matrix defines the subspace, while the other trainable low-rank matrix enables flexible parameter adaptation within that subspace. We conducted extensive experiments on the Dreambooth and Dreambench Plus datasets for personalization, the InsDet dataset for object and scene adaptation, and the VisualCloze dataset for a universal image generation framework through visual in-context learning with both Stable Diffusion and a unified model. Our results demonstrated state-of-the-art performance, highlighting the emergent properties of efficient fine-tuning. Our code is available on \href{https://github.com/MAXNORM8650/DEFT}{DEFTBase}.
- Abstract(参考訳): 事前訓練されたテキスト・トゥ・イメージ(T2I)モデルの効率的な微調整には、計算リソースを最小化し、トレーニング可能なパラメータの数を制限しながら、特定のタスクやデータセットに適合するようにモデルを調整する必要がある。
しかし、それはしばしば、ターゲットの分布と整合性の間のトレードオフを打つことの難しさに直面している: パーソナライズのために限られたイメージから新しい概念を学習し、複数のタスクを統合するために必要な命令能力を維持すること。
本研究は,DeFT(Decompositional Efficient Fine-Tuning)という,2つのトレーニング可能な行列を持つ2つのコンポーネントに更新を分解することで,トレーニング済みの重み行列に適応する,効率的な微調整フレームワークを紹介する。
1つのトレーニング可能な低ランク行列は部分空間を定義し、もう1つのトレーニング可能な低ランク行列はその部分空間内で柔軟なパラメータ適応を可能にする。
我々は,DreamboothとDreambench Plusのパーソナライズ用データセット,オブジェクトおよびシーン適応用InsDetデータセット,および安定拡散と統一モデルによる視覚的文脈内学習によるユニバーサル画像生成フレームワーク用VisualClozeデータセットについて広範な実験を行った。
この結果から,高効率微調整の創発的特性を強調した。
私たちのコードは \href{https://github.com/MAXNORM8650/DEFT}{DEFTBase} で利用可能です。
関連論文リスト
- From Editor to Dense Geometry Estimator [77.21804448599009]
密度幾何予測のための拡散変換器(DiT)アーキテクチャに基づく高度な編集モデルを適用するフレームワークである textbfFE2E を紹介する。
FE2EはETH3Dデータセットで35%以上のパフォーマンス向上を実現し、100$times$データでトレーニングされたDepthAnythingシリーズを上回っている。
論文 参考訳(メタデータ) (2025-09-04T15:58:50Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Sample-Efficient Personalization: Modeling User Parameters as Low Rank
Plus Sparse Components [30.32486162748558]
個人ユーザ/ドメイン/エンタプライズに対する機械学習(ML)予測のパーソナライズは,実践的なレコメンデーションシステムにおいて重要である。
ネットワーク重みを低ランクおよびスパース成分の和としてモデル化するメタラーニング方式を提案する。
AMHT-LRSは、ほぼ最適なサンプル複雑さで効率よく問題を解く。
論文 参考訳(メタデータ) (2022-10-07T12:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。