論文の概要: IRIS: Intrinsic Reward Image Synthesis
- arxiv url: http://arxiv.org/abs/2509.25562v1
- Date: Mon, 29 Sep 2025 22:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.353571
- Title: IRIS: Intrinsic Reward Image Synthesis
- Title(参考訳): IRIS:本質的な逆画像合成
- Authors: Yihang Chen, Yuanhao Ban, Yunqi Hong, Cho-Jui Hsieh,
- Abstract要約: 自己回帰的T2Iモデルが外部報酬やラベル付きデータに頼ることなく内部信号からどのように学習できるかを示す。
自己回帰型T2Iモデルを改善するためのフレームワークとして,本質的な報酬のみを用いて強化学習を行うIRISを提案する。
- 参考スコア(独自算出の注目度): 49.099059035701934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Reinforcement Learning from Human Feedback (RLHF) in language reasoning, its application to autoregressive Text-to-Image (T2I) generation is often constrained by the limited availability of human preference data. This paper explores how an autoregressive T2I model can learn from internal signals without relying on external rewards or labeled data. Contrary to recent findings in text generation, we show that maximizing self-uncertainty, rather than self-certainty, improves image generation. We observe that this is because autoregressive T2I models with low uncertainty tend to generate simple and uniform images, which are less aligned with human preferences. Based on these observations, we propose IRIS (Intrinsic Reward Image Synthesis), the first framework to improve autoregressive T2I models with reinforcement learning using only an intrinsic reward. Empirical results demonstrate that applying IRIS to autoregressive T2I models achieves performance that is competitive with or superior to external rewards.
- Abstract(参考訳): 言語推論における強化学習(Reinforcement Learning from Human Feedback, RLHF)の成功にもかかわらず、その自動回帰テキスト・トゥ・イメージ(T2I)生成への応用は、人間の嗜好データの限定的利用によって制限されることが多い。
本稿では、外部報酬やラベル付きデータに頼ることなく、自己回帰的T2Iモデルが内部信号からどのように学習できるかを考察する。
テキスト生成における最近の知見とは対照的に,自己確実性よりも自己不確かさの最大化が画像生成を改善することを示す。
これは、不確実性の低い自己回帰的T2Iモデルが、人間の嗜好に適合しない単純で均一な画像を生成する傾向があるためである。
そこで本研究では,自己回帰型T2Iモデルの改良を目的としたIRIS(Intrinsic Reward Image Synthesis)を提案する。
実験結果から, 自己回帰型T2IモデルにIRISを適用することで, 外部報酬と競合し, 勝る性能が得られることが示された。
関連論文リスト
- Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting [31.35160142315478]
本稿では,テキスト・ツー・イメージ(T2I)モデルのための新規で普遍的なプロンプト書き換えフレームワークであるPromptEnhancerを紹介する。
モデル固有の微調整やイメージ・リワードスコアのような暗黙の報酬信号に依存する従来の手法とは異なり、我々のフレームワークはリライターをジェネレータから切り離す。
Hunyuan Image 2.1モデルの実験では、PromptEnhancerは幅広い意味的および構成的課題において画像テキストアライメントを大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-04T16:46:10Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - A Dense Reward View on Aligning Text-to-Image Diffusion with Preference [54.43177605637759]
本稿では,T2I逆鎖の初期ステップを強調する,トラクタブルアライメントの目的を提案する。
単一および複数プロンプト生成の実験では,本手法は強い関連するベースラインと競合する。
論文 参考訳(メタデータ) (2024-02-13T07:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。