論文の概要: IRIS: Intrinsic Reward Image Synthesis
- arxiv url: http://arxiv.org/abs/2509.25562v1
- Date: Mon, 29 Sep 2025 22:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.353571
- Title: IRIS: Intrinsic Reward Image Synthesis
- Title(参考訳): IRIS:本質的な逆画像合成
- Authors: Yihang Chen, Yuanhao Ban, Yunqi Hong, Cho-Jui Hsieh,
- Abstract要約: 自己回帰的T2Iモデルが外部報酬やラベル付きデータに頼ることなく内部信号からどのように学習できるかを示す。
自己回帰型T2Iモデルを改善するためのフレームワークとして,本質的な報酬のみを用いて強化学習を行うIRISを提案する。
- 参考スコア(独自算出の注目度): 49.099059035701934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Reinforcement Learning from Human Feedback (RLHF) in language reasoning, its application to autoregressive Text-to-Image (T2I) generation is often constrained by the limited availability of human preference data. This paper explores how an autoregressive T2I model can learn from internal signals without relying on external rewards or labeled data. Contrary to recent findings in text generation, we show that maximizing self-uncertainty, rather than self-certainty, improves image generation. We observe that this is because autoregressive T2I models with low uncertainty tend to generate simple and uniform images, which are less aligned with human preferences. Based on these observations, we propose IRIS (Intrinsic Reward Image Synthesis), the first framework to improve autoregressive T2I models with reinforcement learning using only an intrinsic reward. Empirical results demonstrate that applying IRIS to autoregressive T2I models achieves performance that is competitive with or superior to external rewards.
- Abstract(参考訳): 言語推論における強化学習(Reinforcement Learning from Human Feedback, RLHF)の成功にもかかわらず、その自動回帰テキスト・トゥ・イメージ(T2I)生成への応用は、人間の嗜好データの限定的利用によって制限されることが多い。
本稿では、外部報酬やラベル付きデータに頼ることなく、自己回帰的T2Iモデルが内部信号からどのように学習できるかを考察する。
テキスト生成における最近の知見とは対照的に,自己確実性よりも自己不確かさの最大化が画像生成を改善することを示す。
これは、不確実性の低い自己回帰的T2Iモデルが、人間の嗜好に適合しない単純で均一な画像を生成する傾向があるためである。
そこで本研究では,自己回帰型T2Iモデルの改良を目的としたIRIS(Intrinsic Reward Image Synthesis)を提案する。
実験結果から, 自己回帰型T2IモデルにIRISを適用することで, 外部報酬と競合し, 勝る性能が得られることが示された。
関連論文リスト
- Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards [54.92596581841942]
テキスト・ツー・イメージ生成モデルのポストトレーニングは、人間の好み、事実性、そして美学を改善するための有望な道である。
本稿では,外部報酬管理を自己自信信号に置き換えるポストトレーニングフレームワークであるSOLACEを紹介する。
論文 参考訳(メタデータ) (2026-03-01T04:39:09Z) - When Pretty Isn't Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators [8.125052877783043]
この研究は、実際のトレーニングセットのスケーラブルな代替として、合成データの約束を再考する。
2022年から2025年の間に、最先端のT2Iモデルを用いて大規模な合成データセットを生成する。
視覚的忠実さと即効性の進歩にもかかわらず、実際のテストデータの分類精度は、トレーニングデータジェネレータとしての新しいT2Iモデルによって一貫して低下する。
論文 参考訳(メタデータ) (2026-02-23T15:15:53Z) - Improving Text-to-Image Generation with Input-Side Inference-Time Scaling [47.94598818606364]
本稿では,T2Iのバックボーンに入力する前に,大規模言語モデルを用いてユーザ入力を洗練するプロンプト書き換えフレームワークを提案する。
その結果, 画像テキストのアライメント, 視覚的品質, 審美性を一貫して改善し, 高いベースラインを達成できた。
これらの結果は,T2Iシステムを改善する上で,迅速な書き換えは効果的でスケーラブルで実用的なモデルに依存しない戦略であることを示唆している。
論文 参考訳(メタデータ) (2025-10-14T00:51:39Z) - NSARM: Next-Scale Autoregressive Modeling for Robust Real-World Image Super-Resolution [17.72407853450265]
我々は、堅牢なReal-ISRフレームワーク、すなわち、Next-Scale Autoregressive Modeling (NSARM)を導入する。
純粋なARモデルとして、NSARMは高速な推論速度を維持しながら既存のReal-ISR法よりも優れた視覚的結果を達成する。
論文 参考訳(メタデータ) (2025-10-01T12:29:58Z) - Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting [31.35160142315478]
本稿では,テキスト・ツー・イメージ(T2I)モデルのための新規で普遍的なプロンプト書き換えフレームワークであるPromptEnhancerを紹介する。
モデル固有の微調整やイメージ・リワードスコアのような暗黙の報酬信号に依存する従来の手法とは異なり、我々のフレームワークはリライターをジェネレータから切り離す。
Hunyuan Image 2.1モデルの実験では、PromptEnhancerは幅広い意味的および構成的課題において画像テキストアライメントを大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-04T16:46:10Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。
我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。
驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T09:30:02Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - A Dense Reward View on Aligning Text-to-Image Diffusion with Preference [54.43177605637759]
本稿では,T2I逆鎖の初期ステップを強調する,トラクタブルアライメントの目的を提案する。
単一および複数プロンプト生成の実験では,本手法は強い関連するベースラインと競合する。
論文 参考訳(メタデータ) (2024-02-13T07:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。