Fugu-MT 論文翻訳(概要): Class-Conditional self-reward mechanism for improved Text-to-Image models

論文の概要: Class-Conditional self-reward mechanism for improved Text-to-Image models

arxiv url: http://arxiv.org/abs/2405.13473v2
Date: Sat, 25 May 2024 07:05:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 11:47:21.732744
Title: Class-Conditional self-reward mechanism for improved Text-to-Image models
Title（参考訳）: テキスト・ツー・イメージモデルの改良のためのクラス・コンディショナル・セルフ・リワード機構
Authors: Safouane El Ghazouali, Arnaud Gucciardi, Umberto Michelucci,
Abstract要約: 我々は、自己回帰モデルの概念に基づいて、テキストから画像への生成AIモデルに匹敵するビジョンを導入する。このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルによって機能する。既存の商用および研究用テキスト・ツー・イメージ・モデルよりも60%以上優れていると評価されている。
参考スコア（独自算出の注目度）: 1.8434042562191815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-rewarding have emerged recently as a powerful tool in the field of Natural Language Processing (NLP), allowing language models to generate high-quality relevant responses by providing their own rewards during training. This innovative technique addresses the limitations of other methods that rely on human preferences. In this paper, we build upon the concept of self-rewarding models and introduce its vision equivalent for Text-to-Image generative AI models. This approach works by fine-tuning diffusion model on a self-generated self-judged dataset, making the fine-tuning more automated and with better data quality. The proposed mechanism makes use of other pre-trained models such as vocabulary based-object detection, image captioning and is conditioned by the a set of object for which the user might need to improve generated data quality. The approach has been implemented, fine-tuned and evaluated on stable diffusion and has led to a performance that has been evaluated to be at least 60\% better than existing commercial and research Text-to-image models. Additionally, the built self-rewarding mechanism allowed a fully automated generation of images, while increasing the visual quality of the generated images and also more efficient following of prompt instructions. The code used in this work is freely available on https://github.com/safouaneelg/SRT2I.
Abstract（参考訳）: 最近、自然言語処理(NLP)の分野で強力なツールとしてセルフリワードが登場し、トレーニング中に自分自身の報酬を提供することで、言語モデルが高品質な応答を生成できるようになった。この革新的な技術は、人間の好みに依存する他の方法の限界に対処する。本稿では,自己回帰モデルの概念に基づいて,テキスト・ツー・イメージ生成AIモデルに匹敵するビジョンを導入する。このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルで動作し、より自動化され、データ品質が向上する。提案機構は,語彙ベースオブジェクト検出や画像キャプションなどの事前学習モデルを利用し,ユーザが生成したデータ品質を改善するために必要なオブジェクトセットによって条件付けされる。このアプローチは安定拡散に基づいて実装され、微調整され、評価され、既存の商用および研究用テキスト・ツー・イメージモデルよりも少なくとも60%高い性能が評価されている。さらに、構築された自己回帰機構により、画像の完全自動生成が可能となり、生成した画像の視覚的品質が向上し、プロンプト命令の追従性が向上した。この作業で使用されるコードはhttps://github.com/safouaneelg/SRT2Iで無料で利用できる。

関連論文リスト

Self-Evaluation Unlocks Any-Step Text-to-Image Generation [65.7088507945307]
本稿では,テキスト・画像生成のための自己評価モデル(Self-E)について紹介する。 Self-Eは、フローマッチングモデルと同様のデータから学習し、同時に新しい自己評価メカニズムを使用する。大規模なテキストと画像のベンチマークの実験では、Self-Eは数ステップの世代で優れているだけでなく、50ステップで最先端のFlow Matchingモデルと競合している。
論文参考訳（メタデータ） (2025-12-26T20:42:11Z)
More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models [53.98725993420285]
生成深度推定法は、事前訓練されたテキスト-画像拡散モデルに格納されたリッチな視覚的先行情報を利用する。本稿では,画像生成と深度推定の統一モデルであるMERGEを紹介する。
論文参考訳（メタデータ） (2025-10-27T17:44:56Z)
Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Personalized Text-to-Image Generation with Auto-Regressive Models [17.294962891093373]
本稿では、パーソナライズされた画像合成のための自己回帰モデルの最適化の可能性について検討する。テキスト埋め込みの最適化と変圧器層の微調整を組み合わせた2段階のトレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-04-17T17:58:26Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Diffusion Self-Distillation for Zero-Shot Customized Image Generation [40.11194010431839]
Diffusion Self-Distillationは、テキスト条件のイメージ・ツー・イメージタスクのための独自のデータセットを生成する方法である。まず、画像のグリッドを作成するために、テキスト・ツー・イメージ拡散モデルのコンテキスト内生成機能を利用する。次に、キュレートされたペア化されたデータセットを使用して、テキストからイメージへのモデルに微調整する。
論文参考訳（メタデータ） (2024-11-27T18:58:52Z)
Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文参考訳（メタデータ） (2024-06-13T00:33:29Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。 RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。 RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文参考訳（メタデータ） (2024-03-25T15:40:22Z)
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。事前訓練された言語モデルは限られた助けを提供する。
論文参考訳（メタデータ） (2023-11-27T07:19:26Z)
SelfEval: Leveraging the discriminative nature of generative models for evaluation [35.7242199928684]
そこで本研究では,テキスト・画像生成モデルを「逆」にすることで,テキスト・画像認識能力を評価できることを示す。提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
論文参考訳（メタデータ） (2023-11-17T18:58:16Z)
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文参考訳（メタデータ） (2023-09-27T17:30:19Z)
Conditional Generation from Unconditional Diffusion Models using Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文参考訳（メタデータ） (2023-06-02T20:09:57Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)
Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。実験はMicrosoftデータセット上で行われる。その結果,提案手法は現代の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-01-18T12:19:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。