論文の概要: Generative Image Inpainting with Segmentation Confusion Adversarial
Training and Contrastive Learning
- arxiv url: http://arxiv.org/abs/2303.13133v1
- Date: Thu, 23 Mar 2023 09:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 14:54:55.179768
- Title: Generative Image Inpainting with Segmentation Confusion Adversarial
Training and Contrastive Learning
- Title(参考訳): セグメンテーション混乱学習とコントラスト学習を併用した生成画像インパインティング
- Authors: Zhiwen Zuo, Lei Zhao, Ailin Li, Zhizhong Wang, Zhanjie Zhang, Jiafu
Chen, Wei Xing, Dongming Lu
- Abstract要約: 本稿では,画像インパインティングのための新しい対角的学習フレームワークについて述べる。
SCATは、画素レベルの局所的なトレーニング信号を提供する、インペイントジェネレータとセグメンテーションネットワークの間の対角ゲームを行う。
2つのベンチマークデータセットに対して広範な実験を行い、質的かつ定量的にモデルの有効性と優越性を実証した。
- 参考スコア(独自算出の注目度): 14.358417509144523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new adversarial training framework for image inpainting
with segmentation confusion adversarial training (SCAT) and contrastive
learning. SCAT plays an adversarial game between an inpainting generator and a
segmentation network, which provides pixel-level local training signals and can
adapt to images with free-form holes. By combining SCAT with standard global
adversarial training, the new adversarial training framework exhibits the
following three advantages simultaneously: (1) the global consistency of the
repaired image, (2) the local fine texture details of the repaired image, and
(3) the flexibility of handling images with free-form holes. Moreover, we
propose the textural and semantic contrastive learning losses to stabilize and
improve our inpainting model's training by exploiting the feature
representation space of the discriminator, in which the inpainting images are
pulled closer to the ground truth images but pushed farther from the corrupted
images. The proposed contrastive losses better guide the repaired images to
move from the corrupted image data points to the real image data points in the
feature representation space, resulting in more realistic completed images. We
conduct extensive experiments on two benchmark datasets, demonstrating our
model's effectiveness and superiority both qualitatively and quantitatively.
- Abstract(参考訳): 本稿では,scat(segmentation confusion adversarial training)とコントラスト学習を用いた画像インペインティングのための新しい学習枠組みを提案する。
SCATは、インペイントジェネレータとセグメンテーションネットワークの間の対角ゲームをプレイし、ピクセルレベルのローカルトレーニング信号を提供し、フリーフォームホールで画像に適応することができる。
SCATと標準的な大域的対角訓練を組み合わせることで,(1)修復画像のグローバルな整合性,(2)修復画像の局所的な微視的テクスチャの詳細,(3)自由な穴による画像の扱いの柔軟性,という3つの利点を同時に示す。
さらに, 識別器の特徴表現空間を基礎的真理画像に近づけて, 劣化画像からさらに遠ざかるようにすることで, 識別モデルの学習を安定させ, 改善するために, テクスチャ的, 意味的コントラスト学習ロスを提案する。
提案するコントラスト損失は、劣化した画像データポイントから特徴表現空間の実際の画像データポイントへ移動するための修復画像をより良くガイドし、より現実的な完成画像を生成する。
2つのベンチマークデータセットに対して広範な実験を行い、質的かつ定量的にモデルの有効性と優越性を実証した。
関連論文リスト
- CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data [40.88256210436378]
本稿では,Web スケールの画像テキストデータに基づく視覚モデルの弱教師付き事前学習を提案する。
提案手法は,画像テキストデータに基づく事前学習を分類タスクとして再編成する。
Webスケールのデータに対する対照的な学習に比べて、トレーニング速度の2.7倍の加速を実現している。
論文 参考訳(メタデータ) (2024-04-24T05:13:28Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - ExCon: Explanation-driven Supervised Contrastive Learning for Image
Classification [12.109442912963969]
本稿では,サリエンシに基づく説明手法を活用して,コンテント保存型マスク強化によるコントラスト学習を提案する。
提案手法は, 近距離画像の埋め込みに類似した内容と説明を与えるという2つの目的を, 批判的に果たすものである。
ExConは、分類、説明品質、対向ロバスト性、および分布シフトの文脈におけるモデルの確率的予測のキャリブレーションの観点から、バニラ指導によるコントラスト学習より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:15:26Z) - Cooperative Training and Latent Space Data Augmentation for Robust
Medical Image Segmentation [13.017279828963444]
ディープラーニングベースのセグメンテーションメソッドは、デプロイメント中に予期せぬデータ分散シフトに対して脆弱である。
本稿では,画像セグメンテーションモデルをトレーニングするための協調的なフレームワークと,ハードサンプルを生成するための潜在空間拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-02T13:39:13Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。