論文の概要: Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2501.06481v1
- Date: Sat, 11 Jan 2025 08:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:40.555641
- Title: Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation
- Title(参考訳): Focus-N-Fix:テキスト・画像生成のための領域認識ファインチューニング
- Authors: Xiaoying Xing, Avinab Saha, Junfeng He, Susan Hao, Paul Vicol, Moonkyung Ryu, Gang Li, Sahil Singla, Sarah Young, Yinxiao Li, Feng Yang, Deepak Ramachandran,
- Abstract要約: Focus-N-Fixは、以前に問題があった画像領域のみを修正できるようにモデルを訓練する、領域対応の微調整手法である。
実験の結果,Focus-N-Fixは局所的な品質の面を改善できることがわかった。
- 参考スコア(独自算出の注目度): 19.346364621597896
- License:
- Abstract: Text-to-image (T2I) generation has made significant advances in recent years, but challenges still remain in the generation of perceptual artifacts, misalignment with complex prompts, and safety. The prevailing approach to address these issues involves collecting human feedback on generated images, training reward models to estimate human feedback, and then fine-tuning T2I models based on the reward models to align them with human preferences. However, while existing reward fine-tuning methods can produce images with higher rewards, they may change model behavior in unexpected ways. For example, fine-tuning for one quality aspect (e.g., safety) may degrade other aspects (e.g., prompt alignment), or may lead to reward hacking (e.g., finding a way to increase rewards without having the intended effect). In this paper, we propose Focus-N-Fix, a region-aware fine-tuning method that trains models to correct only previously problematic image regions. The resulting fine-tuned model generates images with the same high-level structure as the original model but shows significant improvements in regions where the original model was deficient in safety (over-sexualization and violence), plausibility, or other criteria. Our experiments demonstrate that Focus-N-Fix improves these localized quality aspects with little or no degradation to others and typically imperceptible changes in the rest of the image. Disclaimer: This paper contains images that may be overly sexual, violent, offensive, or harmful.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成は近年大きな進歩を遂げているが、知覚的アーティファクトの生成、複雑なプロンプトの誤調整、安全性の確保にはまだ課題が残っている。
これらの問題に対処するための一般的なアプローチは、生成されたイメージに対する人間のフィードバックを収集し、人間のフィードバックを推定するための報酬モデルをトレーニングし、報酬モデルに基づいた微調整T2Iモデルを人間の好みに合わせることである。
しかし、既存の報酬微調整手法は、より高い報酬を持つ画像を生成することができるが、予期せぬ方法でモデル行動を変化させる可能性がある。
例えば、ある品質面(例えば安全性)の微調整は、他の側面(例えば、迅速なアライメント)を劣化させたり、あるいは報酬のハッキング(例えば、意図した効果を持たずに報酬を増やす方法を見つける)につながる可能性がある。
本論文では,以前に問題があった画像領域のみを修正できるようにモデルを訓練する領域対応微調整手法であるFocus-N-Fixを提案する。
結果として得られた微調整されたモデルは、元のモデルと同じ高レベルな構造を持つ画像を生成するが、元のモデルが安全性(過性化と暴力)、妥当性、その他の基準に欠けていた地域では、大幅に改善されている。
実験の結果,Focus-N-Fixは画像の他の部分に対してほとんどあるいは全く劣化することなく,局所的な品質面を改善していることがわかった。
Disclaimer: この論文には、過度に性的、暴力的、攻撃的、有害なイメージが含まれています。
関連論文リスト
- Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation [35.04723374116026]
大規模テキスト・トゥ・イメージ(T2I)モデルは、テキスト・トゥ・イメージ(T2I)生成において驚くべき結果を示している。
これらのモデルを用いて3次元ジオメトリーのテクスチャを合成することは、2次元画像と3次元表面のテクスチャとの領域ギャップのために依然として困難である。
本稿では,事前学習した拡散モデルを活用する新しいテキスト・テクスチャ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T02:32:42Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Rich Human Feedback for Text-to-Image Generation [27.030777546301376]
我々は18K生成画像(RichHF-18K)のリッチなフィードバックを収集し、マルチモーダルトランスを訓練して、リッチなフィードバックを自動的に予測する。
例えば、高品質なトレーニングデータを選択して微調整し、生成モデルを改善することで、予測されたリッチな人間のフィードバックを利用して画像生成を改善することができることを示す。
論文 参考訳(メタデータ) (2023-12-15T22:18:38Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - GAN-based Algorithm for Efficient Image Inpainting [0.0]
世界的なパンデミックは、人々がマスクを着用し始める顔認識の新しい次元に課題を提起している。
このような条件下では,画像の塗り絵に機械学習を応用して問題に対処することを検討する。
特に、オートエンコーダは、画像の重要で一般的な特徴を維持する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-09-13T20:28:54Z) - Learning Semantic Person Image Generation by Region-Adaptive
Normalization [81.52223606284443]
ポーズと外観の翻訳を扱う新しい2段階フレームワークを提案する。
第1段階では,対象意味解析マップを予測し,ポーズ転送の難しさを解消する。
第2段階では,領域適応正規化を組み込んだ新たな人物画像生成手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T06:51:37Z) - Improving robustness against common corruptions with frequency biased
models [112.65717928060195]
目に見えない画像の腐敗は 驚くほど大きなパフォーマンス低下を引き起こします
画像の破損タイプは周波数スペクトルで異なる特性を持ち、ターゲットタイプのデータ拡張の恩恵を受けます。
畳み込み特徴マップの総変動(TV)を最小限に抑え、高周波堅牢性を高める新しい正規化方式を提案する。
論文 参考訳(メタデータ) (2021-03-30T10:44:50Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。