論文の概要: EdiBERT, a generative model for image editing
- arxiv url: http://arxiv.org/abs/2111.15264v1
- Date: Tue, 30 Nov 2021 10:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 13:51:44.997410
- Title: EdiBERT, a generative model for image editing
- Title(参考訳): EdiBERT : 画像編集のための生成モデル
- Authors: Thibaut Issenhuth, Ugo Tanielian, J\'er\'emie Mary, David Picard
- Abstract要約: EdiBERTは、ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器である。
結果のモデルが,多種多様なタスクにおける最先端のパフォーマンスと一致することを示す。
- 参考スコア(独自算出の注目度): 12.605607949417033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in computer vision are pushing the limits of im-age manipulation,
with generative models sampling detailed images on various tasks. However, a
specialized model is often developed and trained for each specific task, even
though many image edition tasks share similarities. In denoising, inpainting,
or image compositing, one always aims at generating a realistic image from a
low-quality one. In this paper, we aim at making a step towards a unified
approach for image editing. To do so, we propose EdiBERT, a bi-directional
transformer trained in the discrete latent space built by a vector-quantized
auto-encoder. We argue that such a bidirectional model is suited for image
manipulation since any patch can be re-sampled conditionally to the whole
image. Using this unique and straightforward training objective, we show that
the resulting model matches state-of-the-art performances on a wide variety of
tasks: image denoising, image completion, and image composition.
- Abstract(参考訳): コンピュータビジョンの進歩は、様々なタスクで詳細な画像をサンプリングする生成モデルによって、非年齢操作の限界を押し進めている。
しかし、イメージエディションのタスクの多くが類似点を共有しているにもかかわらず、特定のタスクごとに特別なモデルが開発・訓練されることが多い。
ノイズ、インペインティング、画像合成において、常に低品質の画像から現実的な画像を生成することを目指している。
本稿では,画像編集における統一的アプローチへの一歩を踏み出すことを目的とする。
そこで本稿では,ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器であるEdiBERTを提案する。
このような双方向モデルは、画像全体に対して任意のパッチを条件付きで再サンプリングできるので、画像操作に適していると論じる。
このユニークで分かりやすいトレーニング目標を用いて,得られたモデルが,画像のデノイジング,画像補完,画像合成など,さまざまなタスクにおいて最先端のパフォーマンスと一致することを示す。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - A Method for Training-free Person Image Picture Generation [4.043367784553845]
本稿では,キャラクタ画像の特徴モデルを提案する。
これにより、ユーザーは文字の画像を簡単に提供して、生成された画像中の文字の画像と期待値とを一致させることで、プロセスを利用することができる。
提案モデルは, モデルを変更したり, 継手モデルとして使用したりすることなく, 安定拡散生成プロセスに簡便に組み込むことができる。
論文 参考訳(メタデータ) (2023-05-16T21:46:28Z) - BlendGAN: Learning and Blending the Internal Distributions of Single
Images by Spatial Image-Identity Conditioning [37.21764919074815]
単一画像生成法は、複数のスケールで単一の自然な画像の内部パッチ分布を学習するために設計されている。
複数の画像の内部分布を同時に学習できる拡張フレームワークを提案する。
私たちのBlendGANは、シングルイメージモデルでサポートされていないアプリケーションへの扉を開きます。
論文 参考訳(メタデータ) (2022-12-03T10:38:27Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。