論文の概要: Inline Critic Steers Image Editing
- arxiv url: http://arxiv.org/abs/2605.12724v1
- Date: Tue, 12 May 2026 20:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.673544
- Title: Inline Critic Steers Image Editing
- Title(参考訳): Inline Critic Steers ImageEditing
- Authors: Weitai Kang, Xiaohang Zhan, Yizhou Wang, Mang Tik Chiu, Jason Kuen, Kangning Liu, Yan Yan,
- Abstract要約: Inline Criticは、凍結したモデルの中間層での予測を批判し、その隠れ状態を利用して前方通過時に生成を洗練させる学習可能なトークンである。
3段階のレシピが提案され, 学習の仕方から操舵の仕方, 操舵の仕方, 訓練の仕方, 学習の仕方, 学習の仕方, 指導の仕方, 指導の仕方, 指導の仕方, 指導の仕方、指導の仕方、指導の仕方、指導の仕方、の3段階が提案されている。
我々は,GEdit-Bench(7.89),RISEBench(9.4),KRIS-Bench(81.92,GPT-4oを上回り,オープンソースとして最強の成果を達成した。
- 参考スコア(独自算出の注目度): 29.577897038219916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing exhibits heterogeneous difficulty not only across cases but also across regions of an image, motivating refinement approaches that allocate correction to where the model struggles. Existing refinement signals arrive late, after a fully generated image or a completed denoising step. We ask whether such a signal can act within an ongoing forward pass. To investigate this, we probe a frozen image-editing model and find that although generation capability emerges only in the last few layers, the error pattern is already set in early layers (rank correlation \r{ho} = 0.83 with the final-layer error map). Based on this, we introduce Inline Critic, a learnable token that critiques a frozen model's predictions at its intermediate layers and steers its hidden states to refine generation during the forward pass. A three-stage recipe is proposed to stabilize the training from learning how to critique to steering generation. As a result, we achieve state of the art on GEdit-Bench (7.89), a +9.4 gain on RISEBench over the same backbone, and the strongest open-source result on KRIS-Bench (81.92, surpassing GPT-4o). We further provide analyses showing that the critic genuinely shapes the model's attention and prediction updates at subsequent layers.
- Abstract(参考訳): インストラクションベースの画像編集は、ケースだけでなく、画像の領域をまたいだ不均一な難易度を示し、モデルが苦労する箇所に補正を割り当てる洗練されたアプローチを動機付けている。
既存の精細化信号は、完全に生成された画像または完了した復調ステップの後、遅刻する。
そのような信号が進行中のフォワードパス内で動作可能かどうかを問う。
これを調べるため, 凍結画像編集モデルを用いて, 生成能力は最後の数層にのみ現れるが, 初期層には既に誤差パターンが設定されている(最終層エラーマップのランク相関 \r{ho} = 0.83)。
これに基づいて、学習可能なトークンであるInline Criticを導入し、中間層における凍結モデルの予測を批判し、その隠れ状態を利用して前方通過時に生成を洗練させる。
3段階のレシピが提案され, 学習の仕方から操舵の仕方, 操舵の仕方, 訓練の仕方, 学習の仕方, 学習の仕方, 指導の仕方, 指導の仕方, 指導の仕方, 指導の仕方、指導の仕方、指導の仕方、指導の仕方、の3段階が提案されている。
その結果, GEdit-Bench (7.89), RISEBench (9.4), KRIS-Bench (81.92, GPT-4oを上回り, 最強のオープンソース化を実現した。
さらに、批判者がモデルに対する注意を真に形成し、その後のレイヤで予測更新を行うことを示す分析結果も提供する。
関連論文リスト
- Revisiting Reconstruction-based AI-generated Image Detection: A Geometric Perspective [50.83711509908479]
幾何学的観点からの再構成誤差に対するヤコビアンスペクトル下界の導入について述べる。
再構成多様体上の実画像は非自明な誤差下界を示し、多様体上の生成された画像はゼロに近い誤差を持つことを示す。
本稿では,構造化編集操作を活用することで動的再構成誤差を計算できるReGapを提案する。
論文 参考訳(メタデータ) (2025-10-29T03:45:03Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - RIGI: Rectifying Image-to-3D Generation Inconsistency via Uncertainty-aware Learning [27.4552892119823]
マルチビュースナップショットの不整合は、しばしばオブジェクト境界に沿ってノイズやアーティファクトを導入し、3D再構成プロセスを損なう。
3次元ガウススプラッティング(3DGS)を3次元再構成に利用し,不確実性認識学習を再現プロセスに統合する。
適応的な画素単位の損失重み付けを適用してモデルを正規化し、不確実領域における再構成強度を低減させる。
論文 参考訳(メタデータ) (2024-11-28T02:19:28Z) - CryoSPIN: Improving Ab-Initio Cryo-EM Reconstruction with Semi-Amortized Pose Inference [30.195615398809043]
Cryo-EMは、高分子錯体の原子分解能3次元構造を決定する方法として人気が高まっている。
近年のCryo-EMの進歩は、アモートされた推論がポーズを予測するために使われている深層学習に焦点が当てられている。
本稿では,半アモタイズ法であるCryoSPINを提案する。この手法では,復元はアモタイズされた推論から始まり,自動デコードに切り替える。
論文 参考訳(メタデータ) (2024-06-15T00:44:32Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。