論文の概要: Agentic Retoucher for Text-To-Image Generation
- arxiv url: http://arxiv.org/abs/2601.02046v1
- Date: Mon, 05 Jan 2026 12:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.058934
- Title: Agentic Retoucher for Text-To-Image Generation
- Title(参考訳): テキスト・トゥ・イメージ・ジェネレーションのためのエージェント・リタッチア
- Authors: Shaocheng Shen, Jianfeng Liang. Chunlei Cai, Cong Geng, Huiyu Duan, Xiaoyun Zhang, Qiang Hu, Guangtao Zhai,
- Abstract要約: Agentic Retoucherは階層的な意思決定駆動のフレームワークで、ポストジェネレーションの修正を人間のような知覚・推論・アクションループとして再構成する。
この設計は、知覚的証拠、言語的推論、制御可能な修正を統一された自己修正的決定プロセスに統合する。
実験により、エージェント・リタッチは知覚品質、歪みの局在化、人間の嗜好調整において、最先端の手法を一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 50.41295654874705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models such as SDXL and FLUX have achieved impressive photorealism, yet small-scale distortions remain pervasive in limbs, face, text and so on. Existing refinement approaches either perform costly iterative re-generation or rely on vision-language models (VLMs) with weak spatial grounding, leading to semantic drift and unreliable local edits. To close this gap, we propose Agentic Retoucher, a hierarchical decision-driven framework that reformulates post-generation correction as a human-like perception-reasoning-action loop. Specifically, we design (1) a perception agent that learns contextual saliency for fine-grained distortion localization under text-image consistency cues, (2) a reasoning agent that performs human-aligned inferential diagnosis via progressive preference alignment, and (3) an action agent that adaptively plans localized inpainting guided by user preference. This design integrates perceptual evidence, linguistic reasoning, and controllable correction into a unified, self-corrective decision process. To enable fine-grained supervision and quantitative evaluation, we further construct GenBlemish-27K, a dataset of 6K T2I images with 27K annotated artifact regions across 12 categories. Extensive experiments demonstrate that Agentic Retoucher consistently outperforms state-of-the-art methods in perceptual quality, distortion localization and human preference alignment, establishing a new paradigm for self-corrective and perceptually reliable T2I generation.
- Abstract(参考訳): SDXLやFLUXのようなテキスト・ツー・イメージ(T2I)拡散モデルは印象的なフォトリアリズムを実現しているが、手足、顔、テキストなどに小さな歪みが広がり続けている。
既存の改良アプローチは、コストのかかる反復的再生成を行うか、空間的接地が弱い視覚言語モデル(VLM)に依存するかのいずれかであり、セマンティックドリフトと信頼性の低い局所的な編集に繋がる。
このギャップを埋めるために我々は,ポストジェネレーション補正を人間のような知覚・推論・アクションループとして再構成する階層的決定駆動型フレームワークであるエージェント・リタッチアを提案する。
具体的には,(1)テキスト・イメージの整合性に基づく微粒な歪みの局所化を学習する知覚エージェント,(2)プログレッシブ・リセプション・アライメントによるヒューマンアライメントな推論を行う推論エージェント,(3)ユーザ・リセプションによって導かれる局所的インペインティングを適応的に計画するアクションエージェントを設計する。
この設計は、知覚的証拠、言語的推論、制御可能な修正を統一された自己修正的決定プロセスに統合する。
さらに,12カテゴリに27Kの注釈付きアーティファクト領域を持つ6K T2I画像のデータセットであるGenBlemish-27Kを構築した。
エージェント・リタッチは、知覚品質、歪み局所化、人間の嗜好アライメントにおいて、常に最先端の手法よりも優れており、自己修正的かつ知覚に信頼性のあるT2I生成のための新しいパラダイムを確立している。
関連論文リスト
- Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing [62.94394079771687]
急成長する傾向は、表現エンコーダの高次元特徴を生成的潜伏剤として採用することである。
生成タスクに理解指向のエンコーダ機能を適用するための体系的フレームワークを提案する。
提案手法は,テキスト・トゥ・イメージ(T2I)と画像編集タスクにおいて,最先端の再構築,収束の高速化,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-12-19T18:59:57Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Taming the Tri-Space Tension: ARC-Guided Hallucination Modeling and Control for Text-to-Image Generation [1.668665305941319]
テキスト・ツー・イメージ(T2I)拡散モデルでは持続的な「幻覚」が示される
本稿では,幻覚を潜在アライメント空間内の軌跡ドリフトとして再解釈する認知的な視点を提案する。
このフレームワークは、T2Iシステムにおける生成障害を理解し緩和するための統一的で解釈可能なアプローチを提供する。
論文 参考訳(メタデータ) (2025-07-07T12:43:09Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。