論文の概要: Difference Inversion: Interpolate and Isolate the Difference with Token Consistency for Image Analogy Generation
- arxiv url: http://arxiv.org/abs/2506.07750v1
- Date: Mon, 09 Jun 2025 13:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.971644
- Title: Difference Inversion: Interpolate and Isolate the Difference with Token Consistency for Image Analogy Generation
- Title(参考訳): 差分インバージョン:画像アナロジー生成のためのトークン一貫性との差分を補間・分離する
- Authors: Hyunsoo Kim, Donghyun Kim, Suhyun Kim,
- Abstract要約: 本稿では, A と A' の差のみを分離し,それを B に適用して可塑性 B' を生成する差分反転法を提案する。
実験により、差分反転は既存のベースラインを定量的にも質的にも上回ることを示した。
- 参考スコア(独自算出の注目度): 10.18757199641836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we generate an image B' that satisfies A:A'::B:B', given the input images A,A' and B? Recent works have tackled this challenge through approaches like visual in-context learning or visual instruction. However, these methods are typically limited to specific models (e.g. InstructPix2Pix. Inpainting models) rather than general diffusion models (e.g. Stable Diffusion, SDXL). This dependency may lead to inherited biases or lower editing capabilities. In this paper, we propose Difference Inversion, a method that isolates only the difference from A and A' and applies it to B to generate a plausible B'. To address model dependency, it is crucial to structure prompts in the form of a "Full Prompt" suitable for input to stable diffusion models, rather than using an "Instruction Prompt". To this end, we accurately extract the Difference between A and A' and combine it with the prompt of B, enabling a plug-and-play application of the difference. To extract a precise difference, we first identify it through 1) Delta Interpolation. Additionally, to ensure accurate training, we propose the 2) Token Consistency Loss and 3) Zero Initialization of Token Embeddings. Our extensive experiments demonstrate that Difference Inversion outperforms existing baselines both quantitatively and qualitatively, indicating its ability to generate more feasible B' in a model-agnostic manner.
- Abstract(参考訳): 入力画像A,A,Bが与えられた場合、A:A'::B:B'を満たす画像Bをどうやって生成できるのか?
最近の研究は、ビジュアル・イン・コンテキスト・ラーニングやビジュアル・インストラクションといったアプローチを通じてこの問題に取り組みつつある。
しかし、これらの手法は通常、一般的な拡散モデル(例えば、安定拡散、SDXL)ではなく、特定のモデル(例えば、InstructPix2Pix. Inpainting model)に限られる。
この依存関係は、継承されたバイアスや編集能力の低下につながる可能性がある。
本稿では, A と A' の差のみを分離し,それを B に適用して可塑性 B' を生成する差分変換法を提案する。
モデル依存に対処するためには、「インストラクション・プロンプト」を使用するのではなく、安定した拡散モデルへの入力に適した「フル・プロンプト」という形式でプロンプトを構築することが不可欠である。
この目的のために、AとA’の差分を正確に抽出し、Bのプロンプトと組み合わせることで、差分をプラグアンドプレイで適用することができる。
正確な違いを抽出するために、まずそれを識別する。
1)デルタ補間。
さらに,正確なトレーニングを確保するため,提案手法を提案する。
2token Consistency Loss 及び
3)Token Embeddingsのゼロ初期化
我々の広範な実験により、差分反転は既存のベースラインを定量的にも質的にも優れており、モデルに依存しない方法でより実現可能なB'を生成する能力を示している。
関連論文リスト
- Single-Step Bidirectional Unpaired Image Translation Using Implicit Bridge Consistency Distillation [55.45188329646137]
Implicit Bridge Consistency Distillation (IBCD) は、対向損失を使わずに、単段階の双方向無ペア翻訳を可能にする。
IBCDは、ベンチマークデータセットの最先端のパフォーマンスを1世代で達成する。
論文 参考訳(メタデータ) (2025-03-19T09:48:04Z) - Origin Identification for Text-Guided Image-to-Image Diffusion Models [39.234894330025114]
テキスト誘導画像と画像の拡散モデル(ID$2$)の原点識別を提案する。
ID$2$の直接的な解決策は、クエリと参照イメージの両方から機能を抽出し比較するために、特別なディープ埋め込みモデルをトレーニングすることである。
提案したID$2$タスクのこの課題を解決するために,最初のデータセットと理論的に保証されたメソッドをコントリビュートする。
論文 参考訳(メタデータ) (2025-01-04T20:34:53Z) - Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation [58.19676004192321]
ノイズからの画像生成とデータからの逆変換の両方を可能にする拡散モデル (DM) は、強力な未ペア画像対イメージ(I2I)翻訳アルゴリズムにインスピレーションを与えている。
我々は、最小輸送コストの分布間の微分方程式(SDE)であるSchrodinger Bridges (SBs) を用いてこの問題に取り組む。
この観測に触発されて,SB ODE を予め訓練した安定拡散により近似する潜在シュロディンガー橋 (LSB) を提案する。
提案アルゴリズムは,従来のDMのコストをわずかに抑えながら,教師なし環境での競合的I2I翻訳を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:24:14Z) - Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow [65.51671121528858]
拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:43:38Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Editing Implicit Assumptions in Text-to-Image Diffusion Models [48.542005079915896]
テキストから画像への拡散モデルは、画像を生成するときに世界について暗黙の仮定をすることが多い。
本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。
モデルパラメータの2.2%を1秒以下で変更するため,本手法は極めて効率的である。
論文 参考訳(メタデータ) (2023-03-14T17:14:21Z) - CEnt: An Entropy-based Model-agnostic Explainability Framework to
Contrast Classifiers' Decisions [2.543865489517869]
我々は任意の分類器の予測を局所的に対比する新しい手法を提案する。
コントラストエントロピーに基づく説明法CEntは、決定木によって局所的にモデルを近似し、異なる特徴分割のエントロピー情報を算出する。
CEntは、不変性(人種など)と半不変性(年齢が増加する方向にしか変化しない)を満足しながら、トレーニングデータに必ずしも存在しない多様な反事実を生成する最初の非漸進的コントラスト法である。
論文 参考訳(メタデータ) (2023-01-19T08:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。