論文の概要: Jurassic World Remake: Bringing Ancient Fossils Back to Life via
Zero-Shot Long Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2308.07316v1
- Date: Mon, 14 Aug 2023 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 12:09:30.221037
- Title: Jurassic World Remake: Bringing Ancient Fossils Back to Life via
Zero-Shot Long Image-to-Image Translation
- Title(参考訳): ジュラシック・ワールドリメイク:ゼロショットの長い画像から画像への翻訳で古代の化石を生き返らせる
- Authors: Alexander Martin and Haitian Zheng and Jie An and Jiebo Luo
- Abstract要約: テキスト誘導潜時拡散モデルを用いて、大きな領域ギャップをまたいだゼロショット画像-画像間変換(I2I)を行う。
大きな領域の隙間をまたいで翻訳を実行できることは、犯罪学、占星術、環境保全、古生物学における様々な現実世界の応用がある。
- 参考スコア(独自算出の注目度): 97.40572668025273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With a strong understanding of the target domain from natural language, we
produce promising results in translating across large domain gaps and bringing
skeletons back to life. In this work, we use text-guided latent diffusion
models for zero-shot image-to-image translation (I2I) across large domain gaps
(longI2I), where large amounts of new visual features and new geometry need to
be generated to enter the target domain. Being able to perform translations
across large domain gaps has a wide variety of real-world applications in
criminology, astrology, environmental conservation, and paleontology. In this
work, we introduce a new task Skull2Animal for translating between skulls and
living animals. On this task, we find that unguided Generative Adversarial
Networks (GANs) are not capable of translating across large domain gaps.
Instead of these traditional I2I methods, we explore the use of guided
diffusion and image editing models and provide a new benchmark model,
Revive-2I, capable of performing zero-shot I2I via text-prompting latent
diffusion models. We find that guidance is necessary for longI2I because, to
bridge the large domain gap, prior knowledge about the target domain is needed.
In addition, we find that prompting provides the best and most scalable
information about the target domain as classifier-guided diffusion models
require retraining for specific use cases and lack stronger constraints on the
target domain because of the wide variety of images they are trained on.
- Abstract(参考訳): 対象とするドメインを自然言語から強く理解することで、大きなドメインギャップを渡り、スケルトンを生き返らせるという有望な結果が得られます。
本研究では,テキスト誘導の潜時拡散モデルを用いて,対象領域に入るために大量の新しい視覚的特徴と新しい幾何学を生成する必要がある大領域ギャップ(longI2I)をまたいだゼロショット画像・画像変換(I2I)を行う。
大きな領域の隙間をまたいで翻訳を実行できることは、犯罪学、占星術、環境保全、古生物学における様々な現実世界の応用がある。
本研究では,頭蓋骨と生体動物を翻訳するSkull2Animalを新たに導入する。
このタスクでは,GAN(unguided Generative Adversarial Networks)は大きなドメインギャップをまたいで翻訳することができない。
これらの従来のI2I手法の代わりに、ガイド付き拡散モデルと画像編集モデルの使用を検討し、テキストプロンプト遅延拡散モデルを用いてゼロショットI2Iを実行できる新しいベンチマークモデルRevive-2Iを提供する。
longi2iには、大きなドメインギャップを埋めるために、ターゲットドメインに関する事前知識が必要であるため、ガイダンスが必要であることが分かりました。
さらに,分類器誘導拡散モデルとして,対象領域に関する最良の,最もスケーラブルな情報の提供には,特定のユースケースに対する再訓練が必要であり,訓練対象領域に対する強い制約が欠如していることが判明した。
関連論文リスト
- S2ST: Image-to-Image Translation in the Seed Space of Latent Diffusion [23.142097481682306]
複雑な画像におけるグローバルI2ITを実現するための新しいフレームワークであるS2STを紹介する。
S2STは遅延拡散モデルのシード空間内で動作し、後者が学習した強力な画像の先行処理を利用する。
S2STは、複雑な自動車シーンに対して、最先端のGANベースのI2IT手法、および拡散ベースのアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-11-30T18:59:49Z) - Domain-Scalable Unpaired Image Translation via Latent Space Anchoring [88.7642967393508]
Unpaired Image-to-image Translation (UNIT)は、2つの視覚領域間の画像をペアのトレーニングデータなしでマッピングすることを目的としている。
そこで本研究では、潜在空間アンカーと呼ばれる新しい領域スケーリング可能なUNIT手法を提案する。
本手法は, 軽量エンコーダと回帰器モデルを学習することにより, 異なる領域の画像を, 凍ったGANと同じ潜伏空間に固定する。
推論フェーズでは、異なるドメインの学習エンコーダとデコーダを任意に組み合わせて、微調整なしで任意の2つのドメイン間で画像を変換することができる。
論文 参考訳(メタデータ) (2023-06-26T17:50:02Z) - Domain Adaptive and Generalizable Network Architectures and Training
Strategies for Semantic Image Segmentation [108.33885637197614]
教師なしドメイン適応(UDA)とドメイン一般化(DG)により、ソースドメインでトレーニングされた機械学習モデルは、ラベルなしまたは目に見えないターゲットドメインでうまく機能する。
UDA&DGのマルチレゾリューション・フレームワークであるHRDAを提案する。このフレームワークは、細かなセグメンテーションの詳細を保存するための小さな高分解能作物の強度と、学習されたスケールの注意を伴って長距離のコンテキスト依存を捕捉する大規模な低分解能作物の強度を組み合わせたものである。
論文 参考訳(メタデータ) (2023-04-26T15:18:45Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメインのFew-Shot Learningは、異なるドメインにわたるFew-Shot Learning問題に対処することを目的としている。
本稿では,ME-D2N(Multi-Expert Domain Decompositional Network)を技術的に貢献する。
本稿では,学生モデルを2つの領域関連部分に分解する新しい領域分解モジュールを提案する。
論文 参考訳(メタデータ) (2022-10-11T09:24:47Z) - Few-Shot Object Detection in Unseen Domains [4.36080478413575]
Few-shot Object Detection (FSOD)は、データ制限のある新しいオブジェクトクラスを学ぶために近年発展している。
そこで本稿では,ドメイン固有の情報をすべて考慮し,新しいクラスを数枚追加する手法を提案する。
T-LESSデータセットを用いた実験により,提案手法はドメインギャップを著しく緩和することに成功した。
論文 参考訳(メタデータ) (2022-04-11T13:16:41Z) - Leveraging Local Domains for Image-to-Image Translation [11.03611991082568]
イメージ・ツー・イメージ(i2i)ネットワークは、グローバルなシーン構造に影響を与えないため、局所的な変化を捉えるのに苦労する。
我々は「ローカルドメイン」と呼ぶ空間領域特性に関する人間の知識を活用する。
我々は、少数のソースデータに基づいてパッチベースのGANをトレーニングし、新しい未知のドメインを幻覚させ、その後、ターゲットへの転送学習を容易にする。
論文 参考訳(メタデータ) (2021-09-09T17:59:52Z) - Fine-Tuning StyleGAN2 For Cartoon Face Generation [0.0]
本稿では,スタイルガン2事前学習モデルの微調整により,対象領域の画像を生成する新しい画像から画像への変換手法を提案する。
stylegan2モデルは、アンバランスデータセット上の教師なしI2I翻訳に適している。
論文 参考訳(メタデータ) (2021-06-22T14:00:10Z) - Crossing-Domain Generative Adversarial Networks for Unsupervised
Multi-Domain Image-to-Image Translation [12.692904507625036]
複数の領域にまたがる教師なし画像間翻訳のための一般的なフレームワークを提案する。
提案するフレームワークは,一対のエンコーダと一対のGANから構成される。
論文 参考訳(メタデータ) (2020-08-27T01:54:07Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。