論文の概要: DECap: Towards Generalized Explicit Caption Editing via Diffusion
Mechanism
- arxiv url: http://arxiv.org/abs/2311.14920v2
- Date: Wed, 6 Mar 2024 11:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 20:39:31.133734
- Title: DECap: Towards Generalized Explicit Caption Editing via Diffusion
Mechanism
- Title(参考訳): DECap: 拡散機構による汎用的明示的キャプション編集を目指して
- Authors: Zhen Wang, Xinyun Jiang, Jun Xiao, Tao Chen, Long Chen
- Abstract要約: 本稿ではDiffusion-based Explicit Caption editing method: DECapを提案する。
我々はECEタスクを拡散機構の下でのデノナイズプロセスとして再構成する。
復調処理は、編集操作と対応するコンテンツワードの明示的な予測を含む。
- 参考スコア(独自算出の注目度): 17.03837136771538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explicit Caption Editing (ECE) -- refining reference image captions through a
sequence of explicit edit operations (e.g., KEEP, DETELE) -- has raised
significant attention due to its explainable and human-like nature. After
training with carefully designed reference and ground-truth caption pairs,
state-of-the-art ECE models exhibit limited generalization ability beyond the
original training data distribution, i.e., they are tailored to refine content
details only in in-domain samples but fail to correct errors in out-of-domain
samples. To this end, we propose a new Diffusion-based Explicit Caption editing
method: DECap. Specifically, we reformulate the ECE task as a denoising process
under the diffusion mechanism, and introduce innovative edit-based noising and
denoising processes. Thanks to this design, the noising process can help to
eliminate the need for meticulous paired data selection by directly introducing
word-level noises for training, learning diverse distribution over input
reference caption. The denoising process involves the explicit predictions of
edit operations and corresponding content words, refining reference captions
through iterative step-wise editing. To further efficiently implement our
diffusion process and improve the inference speed, DECap discards the prevalent
multi-stage design and directly generates edit operations and content words
simultaneously. Extensive ablations have demonstrated the strong generalization
ability of DECap in various scenarios. More interestingly, it even shows great
potential in improving the quality and controllability of caption generation.
- Abstract(参考訳): 明示的なキャプション編集(ece) -- 明示的な編集操作(例えばkeep, detele)のシーケンスを通して参照画像キャプションを精錬する -- は、説明可能で人間のような性質のため、大きな注目を集めている。
注意深く設計された参照と接頭辞のペアでトレーニングした後、最先端のeceモデルは、オリジナルのトレーニングデータ分布を超えた限定的な一般化能力、すなわち、ドメイン内サンプルのみの内容詳細を洗練するように調整されるが、ドメイン外サンプルのエラーを訂正できない。
そこで本稿では,Diffusion ベースの Explicit Caption 編集手法である DECap を提案する。
具体的には,ECEタスクを拡散機構下でのデノナイズプロセスとして再構成し,革新的な編集に基づくノナイズプロセスを導入する。
この設計により、学習のための単語レベルのノイズを直接導入し、入力参照キャプションよりも多様な分布を学習することにより、綿密なペアデータ選択の必要性を解消することができる。
復調処理は、編集操作と対応するコンテンツワードの明示的な予測と、反復的なステップワイズ編集による参照キャプションの精製を含む。
拡散プロセスを効率的に実装し、推論速度を向上させるために、広く普及している多段階設計を捨て、編集操作とコンテンツワードを同時に生成する。
様々なシナリオにおいて、DeCapの強力な一般化能力が広く証明されている。
さらに興味深いことに、キャプション生成の品質と制御性を改善する大きな可能性を秘めている。
関連論文リスト
- Schedule Your Edit: A Simple yet Effective Diffusion Noise Schedule for Image Editing [42.45138713525929]
効率的な編集では、ソースイメージを潜在空間に反転させる必要があり、このプロセスはDDIMの反転に固有の予測エラーによってしばしば妨げられる。
特異性を排除し、インバージョン安定性を改善し、画像編集のためのより良いノイズ空間を提供する新しいノイズスケジュールであるロジスティックスケジュールを導入する。
提案手法では追加のトレーニングは必要とせず,既存の編集手法と互換性がある。
論文 参考訳(メタデータ) (2024-10-24T14:07:02Z) - DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models [79.0135981840682]
DICE(Discrete Inversion for Controllable Editing)を導入し,離散拡散モデルの正確なインバージョンを実現する。
逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは離散データの正確な再構成とフレキシブルな編集を可能にする。
以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-10T17:59:48Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。
本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。
本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-25T12:12:36Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。