論文の概要: Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2601.05124v1
- Date: Thu, 08 Jan 2026 17:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.297646
- Title: Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing
- Title(参考訳): Re-Align:In-Context画像生成と編集のための構造化推論誘導アライメント
- Authors: Runze He, Yiji Cheng, Tiankai Hang, Zhimin Li, Yu Xu, Zijin Yin, Shiyi Zhang, Wenxun Dai, Penghui Du, Ao Ma, Chunyu Wang, Qinglin Lu, Jizhong Han, Jiao Dai,
- Abstract要約: Re-Alignは構造化推論誘導アライメントを通じて理解と生成のギャップを埋める。
In-context Image Generation and editing (ICGE)により、ユーザーはインターリーブされた画像テキストプロンプトによって視覚概念を指定できる。
- 参考スコア(独自算出の注目度): 38.240269144736224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.
- Abstract(参考訳): In-context Image generation and editing (ICGE) により、ユーザーはインターリーブされた画像テキストプロンプトを通じて視覚概念を指定でき、正確な理解とユーザ意図の忠実な実行を要求する。
最近の統合マルチモーダルモデルは有望な理解能力を示すが、これらの強みは画像生成に効果的に伝達できないことが多い。
構造化推論誘導アライメントによる理解と生成のギャップを埋める統合フレームワークであるRe-Alignを導入する。
In-Context Chain-of-Thought(IC-CoT)は、セマンティックガイダンスと参照アソシエーションを分離し、明確なテキストターゲットを提供し、参照イメージ間の混乱を緩和する構造化推論パラダイムである。
さらに、Re-Alignは、サロゲート報酬を利用して、構造化推論テキストと生成された画像のアライメントを測定する効果的なRLトレーニングスキームを導入し、ICGEタスクにおけるモデル全体のパフォーマンスを向上させる。
大規模な実験により、Re-Alignは、コンテクスト内画像生成と編集の両方のタスクにおいて、同等のモデルスケールとリソースの競合する手法より優れていることが検証された。
関連論文リスト
- GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing [16.943575863059607]
Image-POSERは、事前訓練されたテキスト・ツー・イメージの専門家とイメージ・ツー・イメージの専門家の多様なレジストリをオーケストレーションする。
動的タスクの分解を通じて、エンドツーエンドのプロンプトを処理します。
人間の評価において常に好まれる。
論文 参考訳(メタデータ) (2025-11-15T03:15:34Z) - High Fidelity Text to Image Generation with Contrastive Alignment and Structural Guidance [0.0]
本稿では,既存のテキスト駆動画像生成手法の性能を,意味的アライメントの精度と構造的整合性の観点から考察する。
テキスト画像のコントラスト制約と構造誘導機構を統合することで,高忠実度画像生成手法を提案する。
本手法は,計算複雑性を増大させることなく,意味的アライメントと構造的忠実度とのギャップを効果的に埋めることを示す。
論文 参考訳(メタデータ) (2025-08-14T02:15:11Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。