論文の概要: Generation Navigator: A State-Aware Agentic Framework for Image Generation
- arxiv url: http://arxiv.org/abs/2605.17969v1
- Date: Mon, 18 May 2026 07:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.991556
- Title: Generation Navigator: A State-Aware Agentic Framework for Image Generation
- Title(参考訳): Generation Navigator: 画像生成のための状態認識エージェントフレームワーク
- Authors: Jinming Liu, Ruoyu Feng, Yuqi Wang, Wenjun Zeng, Xin Jin,
- Abstract要約: 既存のシステムは、手作りのルールによって駆動される単純なプロンプト書き換えかクローズドループエージェントに依存している。
生成軌道を動的に操り、次の動作を出力するマルチターンT2IエージェントであるGeneration Navigatorを提案する。
本稿では,高画質画像の発見に有意な報奨を与える軌道レベルの強化学習目標であるPre-GRPOを用いてこれを解決する。
- 参考スコア(独自算出の注目度): 27.152909600620095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advances in text-to-image generation, faithfully realizing user intent remains challenging, often requiring manual multi-turn trial and error. To automate this process, existing systems rely on either simple prompt rewriting or closed-loop agents driven by hand-crafted rules, rather than learning to adapt actions to the evolving generation process. In this paper, we reformulate image generation as a state-conditioned action-making problem and propose Generation Navigator, a multi-turn T2I agent that learns to dynamically steer the generation trajectory and output the next action. However, training this agent via reinforcement learning introduces a critical credit assignment challenge: naively rewarding a trajectory based solely on a single state assigns equal credit to all actions in the rollout, ignores the quality dynamics across turns, and fails to distinguish actions that improve the trajectory from those that degrade it or waste turns without progress. We resolve this with PRE-GRPO (Peak-Retention-Efficiency Group Relative Policy Optimization), a trajectory-level reinforcement learning objective that explicitly rewards discovering a high-quality image (Peak), avoiding subsequent quality degradation across turns (Retention), and minimizing unnecessary turns (Efficiency). Experiments show substantial improvements across benchmarks, reaching a WISE score of 0.90 and 79.06% reasoning accuracy on T2I-ReasonBench.
- Abstract(参考訳): テキスト・ツー・イメージ生成の急速な進歩にもかかわらず、ユーザの意図を忠実に認識することは依然として困難であり、多くの場合、手動のマルチターントライアルとエラーが必要になる。
このプロセスを自動化するために、既存のシステムは、進化する生成プロセスにアクションを適用することを学ぶのではなく、手作りのルールによって駆動される単純なプロンプト書き換えまたはクローズドループエージェントに依存する。
本稿では,画像生成を状態条件の行動生成問題として再構成し,生成軌道を動的に操り,次の動作を出力するマルチターンT2IエージェントであるGeneration Navigatorを提案する。
しかし、このエージェントを強化学習を介して訓練することは、重要な信用付与課題をもたらす: 単一の状態のみに基づいて軌道に報酬を与えることは、ロールアウト中の全ての行動に等しい信用を割り当て、ターン間の品質のダイナミクスを無視し、軌道を改善する行動と、それを劣化させたり、あるいは無駄に回す行為とを区別することができない。
我々は、高画質画像(ピーク)の発見を明確に報いる軌道レベルの強化学習目標であるpre-GRPO (Peak-Retention-Efficiency Group Reliciency Policy Optimization) を用いてこれを解決し、旋回(保持)におけるその後の品質劣化を回避し、不要な旋回(効率)を最小限に抑える。
T2I-ReasonBenchのWISEスコアは0.90と79.06%に達した。
関連論文リスト
- CASCADE: Context-Aware Relaxation for Speculative Image Decoding [9.004650208708235]
自己回帰生成は高忠実度画像合成のための強力なアプローチである。
現在のアプローチでは、テキスト生成で見られるものと同等の効率向上を達成できない。
木に基づく投機的復号法で自然に現れる対象モデルの振舞いにおいて,これまで見過ごされていたパターンを同定する。
論文 参考訳(メタデータ) (2026-05-08T04:32:17Z) - Q-DeepSight: Incentivizing Thinking with Images for Image Quality Assessment and Refinement [58.15004031934379]
我々は、この人間のようなプロセスをエミュレートする思考とイメージのフレームワークであるQ-DeepSightを提案する。
Q-DeepSightは、自然、復元、AI生成コンテンツなど、さまざまなベンチマークで最先端のパフォーマンスを実現している。
本稿では,Q-DeepSight の診断が反復画像強調を導くトレーニングフリーフレームワークであるPerceptual-in-Generation (PiG) を用いて,その実用的価値を示す。
論文 参考訳(メタデータ) (2026-04-18T06:10:57Z) - UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience [56.50613398808361]
本稿では,新しい2段階自己進化型モバイルGUIエージェントを提案する。
最初の段階では、完全に自律的なループでデータとモデルの継続的な共進化を可能にするRejection Fine-Tuning (RFT) を採用しています。
第2段階はグループ相対自己蒸留(GRSD)を導入し、グループロールアウトにおける重要なフォークポイントを特定し、成功軌道から失敗軌道の修正に至るまで、密度の高いステップレベルの監視を構築する。
論文 参考訳(メタデータ) (2026-03-25T17:10:29Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution [3.103291412074661]
本研究では,合成画像検出に固有の一般化問題に対処する新しい2段階検出フレームワークを提案する。
提案手法は,既存手法よりも5.2ポイント向上した平均検出精度91.3%を実現する。
論文 参考訳(メタデータ) (2025-11-20T16:53:24Z) - STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation [16.40446848402754]
近年,テキスト・ツー・イメージ・ジェネレーションを改善するために強化学習が研究されている。
既存のGRPOアルゴリズムを自己回帰(AR)イメージモデルに適用することは依然として困難である。
本研究では,AR画像生成のためのGRPOを再検討し,不必要なトークンからの矛盾した勾配と不安定なポリシーエントロピーダイナミクスの2つの主要な問題を特定する。
論文 参考訳(メタデータ) (2025-09-29T16:50:21Z) - Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。
実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文 参考訳(メタデータ) (2024-11-26T10:54:33Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - P2DT: Mitigating Forgetting in task-incremental Learning with progressive prompt Decision Transformer [49.716834343064015]
破滅的な忘れ物は、大きなモデルによって制御される知的エージェントを管理する上で大きな課題となる。
P2DT(Progressive Prompt Decision Transformer)を提案する。
この手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化し,タスク固有のポリシーを育成する。
論文 参考訳(メタデータ) (2024-01-22T02:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。