論文の概要: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards
- arxiv url: http://arxiv.org/abs/2603.00918v1
- Date: Sun, 01 Mar 2026 04:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.412385
- Title: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards
- Title(参考訳): 内在的自己信頼リワードによるテキスト・ツー・イメージ生成の改善
- Authors: Seungwook Kim, Minsu Cho,
- Abstract要約: テキスト・ツー・イメージ生成モデルのポストトレーニングは、人間の好み、事実性、そして美学を改善するための有望な道である。
我々は、外部報酬監督を内部の自信信号に置き換える訓練後フレームワークARC(Adaptive Rewarding by Self-Confidence)を紹介する。
ARCと外部報酬の統合は、報酬ハッキングを緩和し、補完的な改善をもたらすことが判明した。
- 参考スコア(独自算出の注目度): 54.92596581841942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation powers content creation across design, media, and data augmentation. Post-training of text-to-image generative models is a promising path to better match human preferences, factuality, and improved aesthetics. We introduce ARC (Adaptive Rewarding by self-Confidence), a post-training framework that replaces external reward supervision with an internal self-confidence signal, obtained by evaluating how accurately the model recovers injected noise under self-denoising probes. ARC converts this intrinsic signal into scalar rewards, enabling fully unsupervised optimization without additional datasets, annotators, or reward models. Empirically, by reinforcing high-confidence generations, ARC delivers consistent gains in compositional generation, text rendering and text-image alignment over the baseline. We also find that integrating ARC with external rewards results in a complementary improvement, with alleviated reward hacking.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションは、デザイン、メディア、データ拡張にまたがるコンテンツ作成の力となる。
テキスト・ツー・イメージ生成モデルのポストトレーニングは、人間の好み、事実性、そして美学を改善するための有望な道である。
本稿では,内的自己自信信号から外的報酬監督を代替する学習後フレームワークARC(Adaptive Rewarding by Self-Confidence)を紹介し,自己否定型プローブによる注入音の回復精度を評価する。
ARCはこの固有の信号をスカラー報酬に変換し、追加のデータセット、アノテータ、報酬モデルなしで完全に教師なしの最適化を可能にする。
経験的には、高信頼世代を強化することで、ARCは、合成生成、テキストレンダリング、ベースライン上のテキストイメージアライメントにおいて一貫した利益をもたらす。
また、ARCと外部報酬の統合は相補的な改善をもたらし、報酬ハッキングを緩和する。
関連論文リスト
- The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation [52.648073272395635]
本稿では、報酬モデルとジェネレータの両方を反復的に更新する逆報酬を持つRLフレームワークであるAdv-GRPOを紹介する。
パラメータ更新を制約するKL正規化とは異なり、学習した報酬は生成元を直接視覚出力に導く。
人的評価では,Flow-GRPO と SD3 がそれぞれ 70.0% と 72.4% の画像品質,美学に優れていた。
論文 参考訳(メタデータ) (2025-11-25T12:35:57Z) - Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation [11.663809872664103]
現在の防衛は、生産物を生産品質を犠牲にしたり、高いコストを発生させることなく、人的価値と整合させるのに苦労している。
我々は、より安全でより有用なテキスト・ツー・イメージ・ジェネレーションのためのゼロショットエージェント・フレームワークであるVALORを紹介した。
VALORは、階層化されたプロンプト分析とヒューマンアラインな値推論を統合している。
論文 参考訳(メタデータ) (2025-11-12T09:52:47Z) - IRIS: Intrinsic Reward Image Synthesis [49.099059035701934]
自己回帰的T2Iモデルが外部報酬やラベル付きデータに頼ることなく内部信号からどのように学習できるかを示す。
自己回帰型T2Iモデルを改善するためのフレームワークとして,本質的な報酬のみを用いて強化学習を行うIRISを提案する。
論文 参考訳(メタデータ) (2025-09-29T22:38:25Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation [25.29877217341663]
本稿では、複雑な人間の嗜好に合わせた高品質で高速な画像生成を実現するという課題に対処する。
Reward-Instructは、トレーニング済みのベース拡散モデルから報酬強化された数ステップジェネレータに変換するための、新しくて驚くほどシンプルな報酬中心のアプローチである。
テキスト・ツー・イメージ生成実験により,Reward-Instructは視覚的品質と定量的な測定結果が得られることを示した。
論文 参考訳(メタデータ) (2025-03-17T11:21:43Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Attribute-Centric Compositional Text-to-Image Generation [45.12516226662346]
ACTIGは属性中心のコンポジションテキスト・ツー・イメージ生成フレームワークである。
属性中心の特徴強化と,新しい画像のないトレーニング手法を提案する。
CelebA-HQおよびCUBデータセット上で、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2023-01-04T03:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。