論文の概要: General Image-to-Image Translation with One-Shot Image Guidance
- arxiv url: http://arxiv.org/abs/2307.14352v3
- Date: Wed, 20 Sep 2023 08:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 18:45:59.841878
- Title: General Image-to-Image Translation with One-Shot Image Guidance
- Title(参考訳): ワンショット画像誘導による一般画像変換
- Authors: Bin Cheng, Zuhao Liu, Yunbo Peng, Yue Lin
- Abstract要約: ビジュアルコンセプトトランスレータ(VCT)という新しいフレームワークを提案する。
ソースイメージ内のコンテンツを保存し、単一の参照イメージでガイドされた視覚概念を翻訳する機能を持つ。
1つの参照画像のみを前提として、提案したVCTは、優れた結果を得ることなく、幅広い画像から画像への変換タスクを完了することができる。
- 参考スコア(独自算出の注目度): 5.89808526053682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image models pre-trained on massive text-image pairs show
excellent performance in image synthesis recently. However, image can provide
more intuitive visual concepts than plain text. People may ask: how can we
integrate the desired visual concept into an existing image, such as our
portrait? Current methods are inadequate in meeting this demand as they lack
the ability to preserve content or translate visual concepts effectively.
Inspired by this, we propose a novel framework named visual concept translator
(VCT) with the ability to preserve content in the source image and translate
the visual concepts guided by a single reference image. The proposed VCT
contains a content-concept inversion (CCI) process to extract contents and
concepts, and a content-concept fusion (CCF) process to gather the extracted
information to obtain the target image. Given only one reference image, the
proposed VCT can complete a wide range of general image-to-image translation
tasks with excellent results. Extensive experiments are conducted to prove the
superiority and effectiveness of the proposed methods. Codes are available at
https://github.com/CrystalNeuro/visual-concept-translator.
- Abstract(参考訳): 大規模テキスト・画像ペアで事前学習した大規模テキスト・画像モデルは最近画像合成において優れた性能を示している。
しかし、画像はプレーンテキストよりも直感的な視覚概念を提供することができる。
望みの視覚概念を既存のイメージ、例えば肖像画に統合するにはどうすればいいのか?
現在の方法は、コンテンツを保存したり、視覚概念を効果的に翻訳する能力が欠けているため、この要求を満たすには不十分である。
そこで本研究では,画像中のコンテンツを保存し,単一の参照画像でガイドされる視覚概念を翻訳する機能を備えた,視覚概念トランスレータ(VCT)という新しいフレームワークを提案する。
提案するVCTは、内容と概念を抽出する内容概念反転(CCI)プロセスと、抽出した情報を収集して対象画像を得る内容概念融合(CCF)プロセスとを含む。
1つの参照画像のみを与えられた場合、提案するvctは、優れた結果を得て、幅広い一般的な画像から画像への翻訳タスクを完了することができる。
提案手法の優越性と有効性を証明するため,広範な実験を行った。
コードはhttps://github.com/crystalneuro/visual-concept-translatorで入手できる。
関連論文リスト
- Exploiting Text-Image Latent Spaces for the Description of Visual Concepts [13.287533148600248]
コンセプトアクティベーションベクトル(Concept Activation Vectors, CAV)は、人間のフレンドリな概念をモデルの内部的特徴抽出プロセスにリンクすることで、ニューラルネットワークの意思決定に関する洞察を提供する。
新しいCAVが発見されたとき、それらは人間の理解可能な記述に翻訳されなければならない。
本稿では,新たに発見された概念集合の解釈を支援するために,各CAVに対してテキスト記述を提案する。
論文 参考訳(メタデータ) (2024-10-23T12:51:07Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - RefineCap: Concept-Aware Refinement for Image Captioning [34.35093893441625]
我々はRefineCapと呼ばれる新しいモデルを提案し、デコーダ誘導ビジュアルセマンティクスを用いて言語デコーダの出力語彙を洗練させる。
本モデルは,従来の視覚概念モデルと比較して,MS-COCOデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-08T10:12:14Z) - TCIC: Theme Concepts Learning Cross Language and Vision for Image
Captioning [50.30918954390918]
テーマの概念を取り入れたテーマコンセプト拡張画像キャプタリングフレームワークを提案する。
画像とキャプションの両方からテーマ概念が学習可能であることを考慮し,TTNに基づく表現学習のための2つの設定を提案する。
論文 参考訳(メタデータ) (2021-06-21T09:12:55Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。