論文の概要: RemEdit: Efficient Diffusion Editing with Riemannian Geometry
- arxiv url: http://arxiv.org/abs/2601.17927v1
- Date: Sun, 25 Jan 2026 17:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.544616
- Title: RemEdit: Efficient Diffusion Editing with Riemannian Geometry
- Title(参考訳): RemEdit: リーマン幾何学を用いた効率的な拡散編集
- Authors: Eashan Adhikarla, Brian D. Davison,
- Abstract要約: RemEditは画像編集のための拡散ベースのフレームワークである。
忠実度を編集するためには、mmbaベースのモジュールとビジョンランゲージモデルからのゴール認識プロンプトエンリッチメントパスを使用する。
さらなる加速のために,タスク固有の注意喚起機構を導入する。
RemEditは従来の最先端の編集フレームワークを超え、50%のプルーニングでリアルタイムのパフォーマンスを維持している。
- 参考スコア(独自算出の注目度): 1.8594036119086927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Controllable image generation is fundamental to the success of modern generative AI, yet it faces a critical trade-off between semantic fidelity and inference speed. The RemEdit diffusion-based framework addresses this trade-off with two synergistic innovations. First, for editing fidelity, we navigate the latent space as a Riemannian manifold. A mamba-based module efficiently learns the manifold's structure, enabling direct and accurate geodesic path computation for smooth semantic edits. This control is further refined by a dual-SLERP blending technique and a goal-aware prompt enrichment pass from a Vision-Language Model. Second, for additional acceleration, we introduce a novel task-specific attention pruning mechanism. A lightweight pruning head learns to retain tokens essential to the edit, enabling effective optimization without the semantic degradation common in content-agnostic approaches. RemEdit surpasses prior state-of-the-art editing frameworks while maintaining real-time performance under 50% pruning. Consequently, RemEdit establishes a new benchmark for practical and powerful image editing. Source code: https://www.github.com/eashanadhikarla/RemEdit.
- Abstract(参考訳): 制御可能な画像生成は、現代の生成AIの成功に不可欠だが、セマンティックな忠実さと推論速度の間には重要なトレードオフがある。
RemEdit拡散ベースのフレームワークは、このトレードオフに2つのシナジスティックなイノベーションで対処する。
まず、忠実度を編集するために、リーマン多様体として潜在空間をナビゲートする。
マンバベースのモジュールは、多様体の構造を効率的に学習し、スムーズな意味編集のための直接的かつ正確な測地経路計算を可能にする。
この制御は、デュアルSLERPブレンディング技術とビジョンランゲージモデルからのゴール認識プロンプトエンリッチメントパスによりさらに洗練される。
第2に,新たなアクセラレーションを実現するために,タスク固有の注意喚起機構を導入する。
ライトウェイトプルーニングヘッドは、編集に必要なトークンを保持することを学習し、コンテンツに依存しないアプローチで共通するセマンティックな劣化なしに効果的な最適化を可能にする。
RemEditは従来の最先端の編集フレームワークを超え、50%のプルーニングでリアルタイムのパフォーマンスを維持している。
その結果、RemEditは実用的で強力な画像編集のための新しいベンチマークを確立した。
ソースコード:https://www.github.com/eashanadhikarla/RemEdit。
関連論文リスト
- FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing [75.29825659756351]
FlashEditは、高忠実でリアルタイムな画像編集を可能にするように設計された新しいフレームワークである。
その効率性は,(1)コストのかかる反復プロセスをバイパスするワンステップ・インバージョン・アンド・編集(OSIE)パイプライン,(2)編集領域内でのみ特徴を選択的に修正することで背景保存を保証するバックグラウンドシールド(BG-Shield)技術,(3)背景への意味的漏洩を抑えることで正確な局所的編集を保証するスカラー化空間横断認識(SSCA)機構の3つの重要なイノベーションに由来する。
論文 参考訳(メタデータ) (2025-09-26T11:59:30Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。