Fugu-MT 論文翻訳(概要): General Image-to-Image Translation with One-Shot Image Guidance

論文の概要: General Image-to-Image Translation with One-Shot Image Guidance

arxiv url: http://arxiv.org/abs/2307.14352v3
Date: Wed, 20 Sep 2023 08:51:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-21 18:45:59.841878
Title: General Image-to-Image Translation with One-Shot Image Guidance
Title（参考訳）: ワンショット画像誘導による一般画像変換
Authors: Bin Cheng, Zuhao Liu, Yunbo Peng, Yue Lin
Abstract要約: ビジュアルコンセプトトランスレータ(VCT)という新しいフレームワークを提案する。ソースイメージ内のコンテンツを保存し、単一の参照イメージでガイドされた視覚概念を翻訳する機能を持つ。 1つの参照画像のみを前提として、提案したVCTは、優れた結果を得ることなく、幅広い画像から画像への変換タスクを完了することができる。
参考スコア（独自算出の注目度）: 5.89808526053682
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale text-to-image models pre-trained on massive text-image pairs show excellent performance in image synthesis recently. However, image can provide more intuitive visual concepts than plain text. People may ask: how can we integrate the desired visual concept into an existing image, such as our portrait? Current methods are inadequate in meeting this demand as they lack the ability to preserve content or translate visual concepts effectively. Inspired by this, we propose a novel framework named visual concept translator (VCT) with the ability to preserve content in the source image and translate the visual concepts guided by a single reference image. The proposed VCT contains a content-concept inversion (CCI) process to extract contents and concepts, and a content-concept fusion (CCF) process to gather the extracted information to obtain the target image. Given only one reference image, the proposed VCT can complete a wide range of general image-to-image translation tasks with excellent results. Extensive experiments are conducted to prove the superiority and effectiveness of the proposed methods. Codes are available at https://github.com/CrystalNeuro/visual-concept-translator.
Abstract（参考訳）: 大規模テキスト・画像ペアで事前学習した大規模テキスト・画像モデルは最近画像合成において優れた性能を示している。しかし、画像はプレーンテキストよりも直感的な視覚概念を提供することができる。望みの視覚概念を既存のイメージ、例えば肖像画に統合するにはどうすればいいのか? 現在の方法は、コンテンツを保存したり、視覚概念を効果的に翻訳する能力が欠けているため、この要求を満たすには不十分である。そこで本研究では,画像中のコンテンツを保存し,単一の参照画像でガイドされる視覚概念を翻訳する機能を備えた,視覚概念トランスレータ(VCT)という新しいフレームワークを提案する。提案するVCTは、内容と概念を抽出する内容概念反転(CCI)プロセスと、抽出した情報を収集して対象画像を得る内容概念融合(CCF)プロセスとを含む。 1つの参照画像のみを与えられた場合、提案するvctは、優れた結果を得て、幅広い一般的な画像から画像への翻訳タスクを完了することができる。提案手法の優越性と有効性を証明するため,広範な実験を行った。コードはhttps://github.com/crystalneuro/visual-concept-translatorで入手できる。

関連論文リスト

Zero-Shot Visual Concept Blending Without Text Guidance [0.0]
視覚概念ブレンディング」は、複数の参照画像の特徴をソース画像に転送するきめ細かい制御を提供する。本手法は, テクスチャ, 形状, 動き, スタイル, 抽象的な概念変換の柔軟な伝達を可能にする。
論文参考訳（メタデータ） (2025-03-27T08:56:33Z)
IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文参考訳（メタデータ） (2025-02-19T18:49:31Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
Exploiting Text-Image Latent Spaces for the Description of Visual Concepts [13.287533148600248]
コンセプトアクティベーションベクトル(Concept Activation Vectors, CAV)は、人間のフレンドリな概念をモデルの内部的特徴抽出プロセスにリンクすることで、ニューラルネットワークの意思決定に関する洞察を提供する。新しいCAVが発見されたとき、それらは人間の理解可能な記述に翻訳されなければならない。本稿では,新たに発見された概念集合の解釈を支援するために,各CAVに対してテキスト記述を提案する。
論文参考訳（メタデータ） (2024-10-23T12:51:07Z)
FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文参考訳（メタデータ） (2024-05-22T17:53:38Z)
An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文参考訳（メタデータ） (2024-04-01T17:08:50Z)
Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T07:28:37Z)
Textual Localization: Decomposing Multi-concept Images for Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文参考訳（メタデータ） (2024-02-15T14:19:42Z)
Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文参考訳（メタデータ） (2023-12-06T16:24:47Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
RefineCap: Concept-Aware Refinement for Image Captioning [34.35093893441625]
我々はRefineCapと呼ばれる新しいモデルを提案し、デコーダ誘導ビジュアルセマンティクスを用いて言語デコーダの出力語彙を洗練させる。本モデルは,従来の視覚概念モデルと比較して,MS-COCOデータセット上での優れた性能を実現する。
論文参考訳（メタデータ） (2021-09-08T10:12:14Z)
TCIC: Theme Concepts Learning Cross Language and Vision for Image Captioning [50.30918954390918]
テーマの概念を取り入れたテーマコンセプト拡張画像キャプタリングフレームワークを提案する。画像とキャプションの両方からテーマ概念が学習可能であることを考慮し,TTNに基づく表現学習のための2つの設定を提案する。
論文参考訳（メタデータ） (2021-06-21T09:12:55Z)
Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文参考訳（メタデータ） (2020-12-01T17:18:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。