論文の概要: Contrastive Monotonic Pixel-Level Modulation
- arxiv url: http://arxiv.org/abs/2207.11517v1
- Date: Sat, 23 Jul 2022 13:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:29:45.441041
- Title: Contrastive Monotonic Pixel-Level Modulation
- Title(参考訳): コントラスト単調画素レベル変調
- Authors: Kun Lu, Rongpeng Li, and Honggang Zhang
- Abstract要約: 教師なしかつコントラッシブな連続変調モデルであるMonoPixという新しい定式化を提案する。
我々はさらに一歩進めて、重要なが以前に適切に扱えない画素レベルの空間制御を可能にする。
AFHQ cat-dog や Yosemite サマーウィンター翻訳など,さまざまな継続的マッピングタスクに対して,最先端のパフォーマンスが検証されている。
- 参考スコア(独自算出の注目度): 5.8955718159354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous one-to-many mapping is a less investigated yet important task in
both low-level visions and neural image translation. In this paper, we present
a new formulation called MonoPix, an unsupervised and contrastive continuous
modulation model, and take a step further to enable a pixel-level spatial
control which is critical but can not be properly handled previously. The key
feature of this work is to model the monotonicity between controlling signals
and the domain discriminator with a novel contrastive modulation framework and
corresponding monotonicity constraints. We have also introduced a selective
inference strategy with logarithmic approximation complexity and support fast
domain adaptations. The state-of-the-art performance is validated on a variety
of continuous mapping tasks, including AFHQ cat-dog and Yosemite summer-winter
translation. The introduced approach also helps to provide a new solution for
many low-level tasks like low-light enhancement and natural noise generation,
which is beyond the long-established practice of one-to-one training and
inference. Code is available at https://github.com/lukun199/MonoPix.
- Abstract(参考訳): 連続した1対多マッピングは、低レベルのビジョンとニューラルイメージの変換において、あまり研究されていないが重要なタスクである。
本稿では,教師なしかつコントラストのない連続変調モデルであるmonopixという新しい定式化を提案し,さらに一歩進めて,重要ではあるが適切に処理できない画素レベルの空間制御を実現する。
この研究の重要な特徴は、制御信号と領域判別器の間の単調性を、新しい対照的な変調フレームワークと対応する単調性制約でモデル化することである。
我々はまた、対数近似の複雑さと高速なドメイン適応をサポートする選択的推論戦略を導入した。
最先端のパフォーマンスは、afhq cat-dogやyosemite summer-winter translationなど、さまざまな連続マッピングタスクで検証される。
導入されたアプローチは、低照度向上や自然騒音発生といった多くの低レベルのタスクに対する新しいソリューションを提供するのにも役立ちます。
コードはhttps://github.com/lukun199/MonoPixで入手できる。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Meta-TTT: A Meta-learning Minimax Framework For Test-Time Training [5.9631503543049895]
テスト時ドメイン適応は、推論中に制限された未ラベルのターゲットデータに事前訓練されたモデルを適用することを目的とした、困難なタスクである。
本稿では,バッチ正規化レイヤ上でのテスト時間トレーニングを行うためのメタラーニングミニマックスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:16:05Z) - Quantized Embedding Vectors for Controllable Diffusion Language Models [1.3287140837287783]
Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
論文 参考訳(メタデータ) (2024-02-15T17:02:48Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Fix the Noise: Disentangling Source Feature for Controllable Domain
Translation [34.18091057284519]
制御性に優れた高品質なドメイン翻訳手法を提案する。
キーとなるアイデアは、ソースの機能を、ターゲットのフィーチャー空間のアンタングルされた部分空間内に保持することである。
実験の結果,提案手法はより一貫性があり,現実的な画像を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-03-21T02:19:48Z) - ContraReg: Contrastive Learning of Multi-modality Unsupervised
Deformable Image Registration [8.602552627077056]
この研究は、マルチモーダル変形可能な登録のための教師なしコントラスト表現学習手法であるContraRegを提示する。
学習したマルチスケールなローカルパッチ機能をドメイン間埋め込み空間に投影することにより、ContraRegは非厳密なマルチモードアライメントに有用な表現を得る。
実験的に、ContraRegは、新生児T1-T2脳MRI登録タスクにおいて、一連のベースラインにわたる滑らかで非可逆的な変形を伴う正確で堅牢な結果を達成する。
論文 参考訳(メタデータ) (2022-06-27T16:27:53Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z) - Regularized Adaptation for Stable and Efficient Continuous-Level
Learning on Image Processing Networks [7.730087303035803]
フィルタ遷移ネットワーク(FTN)を用いた新しい連続レベル学習フレームワークを提案する。
FTNは、新しいレベルに容易に適応できる非線形モジュールであり、望ましくない副作用を防ぐために正規化されている。
様々な画像処理結果から,FTNの性能は適応性および適応性において安定であることが示唆された。
論文 参考訳(メタデータ) (2020-03-11T07:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。