論文の概要: Lightweight Generative Adversarial Networks for Text-Guided Image
Manipulation
- arxiv url: http://arxiv.org/abs/2010.12136v1
- Date: Fri, 23 Oct 2020 02:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:21:57.804356
- Title: Lightweight Generative Adversarial Networks for Text-Guided Image
Manipulation
- Title(参考訳): テキスト誘導画像マニピュレーションのための軽量生成逆数ネットワーク
- Authors: Bowen Li, Xiaojuan Qi, Philip H. S. Torr, Thomas Lukasiewicz
- Abstract要約: 本稿では,自然言語記述を用いた効率的な画像操作のための軽量な生成対向ネットワークを提案する。
単語レベルでの微粒な学習フィードバックを提供する新しい単語レベル判別器を提案する。
- 参考スコア(独自算出の注目度): 139.41321867508722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel lightweight generative adversarial network for efficient
image manipulation using natural language descriptions. To achieve this, a new
word-level discriminator is proposed, which provides the generator with
fine-grained training feedback at word-level, to facilitate training a
lightweight generator that has a small number of parameters, but can still
correctly focus on specific visual attributes of an image, and then edit them
without affecting other contents that are not described in the text.
Furthermore, thanks to the explicit training signal related to each word, the
discriminator can also be simplified to have a lightweight structure. Compared
with the state of the art, our method has a much smaller number of parameters,
but still achieves a competitive manipulation performance. Extensive
experimental results demonstrate that our method can better disentangle
different visual attributes, then correctly map them to corresponding semantic
words, and thus achieve a more accurate image modification using natural
language descriptions.
- Abstract(参考訳): 本稿では,自然言語記述を用いた効率的な画像操作のための軽量な生成対向ネットワークを提案する。
これを実現するために,テキストに記述されていない他の内容に影響を与えずに,画像の特定の視覚的属性に的を絞ることのできる軽量な生成器の訓練を容易にするために,単語レベルでのきめ細かい訓練フィードバックを提供する新しい単語レベル判別器を提案する。
さらに、各単語に関する明示的な訓練信号により、判別器を軽量な構造に単純化することもできる。
現状と比較すると,本手法はパラメータがはるかに少ないが,競合操作性能は依然として達成されている。
広範な実験結果から,本手法は,異なる視覚属性を分離し,それに対応する意味語に正しくマッピングし,自然言語記述を用いたより正確な画像修正を実現することができることが示された。
関連論文リスト
- Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。