論文の概要: Network-to-Network Translation with Conditional Invertible Neural
Networks
- arxiv url: http://arxiv.org/abs/2005.13580v2
- Date: Mon, 9 Nov 2020 20:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:19:46.256266
- Title: Network-to-Network Translation with Conditional Invertible Neural
Networks
- Title(参考訳): 条件付き可逆ニューラルネットワークによるネットワーク間翻訳
- Authors: Robin Rombach and Patrick Esser and Bj\"orn Ommer
- Abstract要約: 最近の研究は、巨大な機械学習モデルのパワーが、彼らが学んだ表現によって捉えられていることを示唆している。
本研究では,異なる既存表現を関連付けることが可能なモデルを模索し,条件付き可逆ネットワークを用いてこの問題を解決することを提案する。
ドメイン転送ネットワークは、それらを学習したり微調整したりすることなく、固定表現を変換できます。
- 参考スコア(独自算出の注目度): 19.398202091883366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the ever-increasing computational costs of modern machine learning
models, we need to find new ways to reuse such expert models and thus tap into
the resources that have been invested in their creation. Recent work suggests
that the power of these massive models is captured by the representations they
learn. Therefore, we seek a model that can relate between different existing
representations and propose to solve this task with a conditionally invertible
network. This network demonstrates its capability by (i) providing generic
transfer between diverse domains, (ii) enabling controlled content synthesis by
allowing modification in other domains, and (iii) facilitating diagnosis of
existing representations by translating them into interpretable domains such as
images. Our domain transfer network can translate between fixed representations
without having to learn or finetune them. This allows users to utilize various
existing domain-specific expert models from the literature that had been
trained with extensive computational resources. Experiments on diverse
conditional image synthesis tasks, competitive image modification results and
experiments on image-to-image and text-to-image generation demonstrate the
generic applicability of our approach. For example, we translate between BERT
and BigGAN, state-of-the-art text and image models to provide text-to-image
generation, which neither of both experts can perform on their own.
- Abstract(参考訳): 現代の機械学習モデルの計算コストがますます高まる中、私たちはこれらのエキスパートモデルを再利用し、その作成に投資されたリソースを活用する新しい方法を見つける必要があります。
最近の研究は、これらの巨大なモデルの力は、彼らが学習した表現によって捉えられることを示唆している。
そこで本研究では,既存の表現を相互に関連付けるモデルを求め,条件付き可逆ネットワークを用いて解くことを提案する。
このネットワークは、その能力を示す
(i)多様なドメイン間の汎用的な転送を提供する。
(ii)他の領域の変更を可能とし、制御されたコンテンツ合成を可能にすること。
(iii)画像などの解釈可能な領域に翻訳することにより、既存の表現の診断を容易にする。
ドメイン転送ネットワークは、学習や微調整をすることなく、固定表現を変換できます。
これによってユーザは、膨大な計算リソースでトレーニングされた文献から、さまざまな既存のドメイン固有のエキスパートモデルを利用することができる。
多様な条件付き画像合成タスクの実験、競合画像修正結果、画像・画像・テキスト・画像生成実験は、我々のアプローチの汎用性を示している。
例えば、BERTとBigGAN、最先端のテキストとイメージモデルを変換して、どちらの専門家も単独で実行できないテキスト・ツー・イメージ生成を提供する。
関連論文リスト
- TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Variational Bayesian Framework for Advanced Image Generation with
Domain-Related Variables [29.827191184889898]
先進条件生成問題に対する統一ベイズ的枠組みを提案する。
本稿では,複数の画像翻訳および編集作業が可能な変分ベイズ画像翻訳ネットワーク(VBITN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T09:47:23Z) - Investigating GANsformer: A Replication Study of a State-of-the-Art
Image Generation Model [0.0]
我々は、オリジナルのGANネットワークであるGANformerの新たなバリエーションを再現し、評価する。
リソースと時間制限のため、ネットワークのトレーニング時間、データセットタイプ、サイズを制限しなければなりませんでした。
論文 参考訳(メタデータ) (2023-03-15T12:51:16Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - WEDGE: Web-Image Assisted Domain Generalization for Semantic
Segmentation [72.88657378658549]
本稿では,Web画像の多様性を一般化可能なセマンティックセグメンテーションに活用したWEb画像支援ドメインゲネラライゼーション手法を提案する。
また,ウェブクローラー画像のスタイルをトレーニング中のトレーニング画像に注入する手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T05:19:58Z) - Transferring Knowledge with Attention Distillation for Multi-Domain
Image-to-Image Translation [28.272982411879845]
画像から画像への翻訳作業のための教師-学生パラダイムにおいて、勾配に基づく注意が伝達する知識としてどのように使われるかを示す。
また、教員と学生のネットワークが異なるドメインでトレーニングされている場合、トレーニング中に「疑似意識」が適用可能であることも示している。
論文 参考訳(メタデータ) (2021-08-17T06:47:04Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。