論文の概要: CogniEdit: Dense Gradient Flow Optimization for Fine-Grained Image Editing
- arxiv url: http://arxiv.org/abs/2512.13276v1
- Date: Mon, 15 Dec 2025 12:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.660188
- Title: CogniEdit: Dense Gradient Flow Optimization for Fine-Grained Image Editing
- Title(参考訳): CogniEdit:微細画像編集のための高密度勾配フロー最適化
- Authors: Yan Li, Lin Liu, Xiaopeng Zhang, Wei Xue, Wenhan Luo, Yike Guo, Qi Tian,
- Abstract要約: マルチモーダル推論と高密度報酬最適化を組み合わせた統合フレームワークCogniEditを提案する。
本手法は,視覚的品質と編集可能性の保存に追従する微粒な命令のバランスをとることによって,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 88.9067184995168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-based image editing with diffusion models has achieved impressive results, yet existing methods strug- gle with fine-grained instructions specifying precise attributes such as colors, positions, and quantities. While recent approaches employ Group Relative Policy Optimization (GRPO) for alignment, they optimize only at individual sampling steps, providing sparse feedback that limits trajectory-level control. We propose a unified framework CogniEdit, combining multi-modal reasoning with dense reward optimization that propagates gradients across con- secutive denoising steps, enabling trajectory-level gradient flow through the sampling process. Our method comprises three components: (1) Multi-modal Large Language Models for decomposing complex instructions into actionable directives, (2) Dynamic Token Focus Relocation that adaptively emphasizes fine-grained attributes, and (3) Dense GRPO-based optimization that propagates gradients across consecutive steps for trajectory-level supervision. Extensive experiments on benchmark datasets demonstrate that our CogniEdit achieves state-of-the-art performance in balancing fine-grained instruction following with visual quality and editability preservation
- Abstract(参考訳): 拡散モデルを用いたインストラクションベースの画像編集は印象的な結果を得たが、既存の手法では色や位置、量などの正確な属性を指定したきめ細かな指示がされている。
最近のアプローチでは、アライメントに Group Relative Policy Optimization (GRPO) を採用しているが、個々のサンプリングステップのみを最適化し、軌道レベルの制御を制限する疎いフィードバックを提供する。
本稿では,マルチモーダル推論と高密度報酬最適化を組み合わせた統合フレームワークCogniEditを提案する。
提案手法は,(1)複雑な命令を動作可能なディレクティブに分解する多モード大言語モデル,(2)微粒な属性を適応的に強調する動的Token Focus Relocation,(3)軌道レベルの監視のための連続的なステップ間の勾配を伝搬するDense GRPOベースの最適化の3つのコンポーネントから構成される。
ベンチマークデータセットの大規模な実験により、我々のCogniEditは、視覚的品質と編集可能性の保存に追従したきめ細かい命令のバランスをとる上で、最先端のパフォーマンスを実現していることが示された。
関連論文リスト
- Instance-Guided Class Activation Mapping for Weakly Supervised Semantic Segmentation [5.539128209356213]
我々は,高品質で境界対応なローカライゼーションマップを生成する新しい手法IG-CAMを提案する。
提案手法は,完全な対象範囲と正確な境界線による局所化精度が向上することを示す。
IG-CAMを弱教師付きセマンティックセグメンテーションのための新しいベンチマークとして確立した。
論文 参考訳(メタデータ) (2025-09-15T22:41:44Z) - Multi-Sample Anti-Aliasing and Constrained Optimization for 3D Gaussian Splatting [6.336372495476242]
本稿では,マルチサンプル・アンチエイリアスと2つの幾何学的制約を組み合わせた総合最適化フレームワークを提案する。
本システムでは,4重サブサンプルの適応ブレンディングにより画素色を計算し,高周波成分のエイリアスを効果的に低減する。
本手法は,特に高周波テクスチャと鋭い不連続の保存において,詳細な保存における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-14T10:14:36Z) - Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition [4.192370959537781]
本稿では,ラベル付きデータに制限のある下流タスクにおいて,事前学習した基礎モデルの性能向上を目的とした半教師付き微調整手法を提案する。
我々は、MNIST、その拡張されたバリエーション、CIFAR-10、SVHN、GalaxyMNISTを含む複数のデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-10-02T22:36:12Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Bridging CLIP and StyleGAN through Latent Alignment for Image Editing [33.86698044813281]
我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
論文 参考訳(メタデータ) (2022-10-10T09:17:35Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions [36.82512331179322]
近年の研究では、異なるモダリティを扱うネットワークコンポーネントが、異なる速度でオーバーフィットし、一般化し、トレーニングの難しさを生んでいることが示唆されている。
本稿では,各層における勾配更新の規模を調整し,学習速度のバランスをとるため,LARS(Layer-wise Adaptive Rate Scaling)を提案する。
また、シーケンスワイドバッチ正規化(SBN)を用いて、内部の特徴分布を異なるモードから整列する。
論文 参考訳(メタデータ) (2020-11-15T13:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。