論文の概要: Remember What You have drawn: Semantic Image Manipulation with Memory
- arxiv url: http://arxiv.org/abs/2107.12579v1
- Date: Tue, 27 Jul 2021 03:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:42:38.332497
- Title: Remember What You have drawn: Semantic Image Manipulation with Memory
- Title(参考訳): あなたが描いたことを思い出す: メモリによるセマンティックイメージ操作
- Authors: Xiangxi Shi, Zhonghua Wu, Guosheng Lin, Jianfei Cai and Shafiq Joty
- Abstract要約: 本稿では,リアルでテキスト変換された画像を生成するメモリベースの画像操作ネットワーク(MIM-Net)を提案する。
頑健なメモリを学習するために,新しいランダム化メモリトレーニング損失を提案する。
4つの一般的なデータセットに対する実験は、既存のデータセットと比較して、我々の手法の優れた性能を示している。
- 参考スコア(独自算出の注目度): 84.74585786082388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image manipulation with natural language, which aims to manipulate images
with the guidance of language descriptions, has been a challenging problem in
the fields of computer vision and natural language processing (NLP). Currently,
a number of efforts have been made for this task, but their performances are
still distant away from generating realistic and text-conformed manipulated
images. Therefore, in this paper, we propose a memory-based Image Manipulation
Network (MIM-Net), where a set of memories learned from images is introduced to
synthesize the texture information with the guidance of the textual
description. We propose a two-stage network with an additional reconstruction
stage to learn the latent memories efficiently. To avoid the unnecessary
background changes, we propose a Target Localization Unit (TLU) to focus on the
manipulation of the region mentioned by the text. Moreover, to learn a robust
memory, we further propose a novel randomized memory training loss. Experiments
on the four popular datasets show the better performance of our method compared
to the existing ones.
- Abstract(参考訳): 自然言語による画像操作は、言語記述の指導によって画像を操作することを目的としており、コンピュータビジョンや自然言語処理(NLP)の分野では難しい問題となっている。
現在、この作業には多くの取り組みがなされているが、そのパフォーマンスは、現実的でテキスト変換された画像の生成から遠く離れている。
そこで,本稿では,テクスチャ情報をテキスト記述のガイダンスで合成するために,画像から学習した記憶の集合が導入されたメモリベース画像マニピュレーションネットワーク(MIM-Net)を提案する。
本稿では,遅延記憶を効率的に学習する2段階ネットワークを提案する。
不要な背景変化を避けるため,テキストが言及する領域の操作に重点を置くターゲットローカライゼーションユニット(TLU)を提案する。
さらに,ロバストメモリを学ぶために,新たなランダムメモリトレーニング損失を提案する。
4つの人気のあるデータセットに関する実験では、既存のデータセットよりも優れた性能を示している。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training [6.34265125858783]
本稿では,事前学習の少ない視覚言語事前学習のためのノイズロバストフレームワークを提案する。
具体的には、凍結した画像エンコーダと大きな言語モデルとのモダリティギャップを変換器でブリッジする。
ノイズ適応学習と概念強化学習の2つの革新的な学習戦略を導入する。
論文 参考訳(メタデータ) (2024-09-15T01:54:17Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Memory-Based Label-Text Tuning for Few-Shot Class-Incremental Learning [20.87638654650383]
メモリプロンプトを用いてラベルテキスト情報を活用することを提案する。
メモリプロンプトは、新しいデータをシーケンシャルに学習し、一方、前の知識を記憶する。
実験の結果,提案手法は従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-03T13:15:45Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。