論文の概要: Remember What You have drawn: Semantic Image Manipulation with Memory
- arxiv url: http://arxiv.org/abs/2107.12579v1
- Date: Tue, 27 Jul 2021 03:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:42:38.332497
- Title: Remember What You have drawn: Semantic Image Manipulation with Memory
- Title(参考訳): あなたが描いたことを思い出す: メモリによるセマンティックイメージ操作
- Authors: Xiangxi Shi, Zhonghua Wu, Guosheng Lin, Jianfei Cai and Shafiq Joty
- Abstract要約: 本稿では,リアルでテキスト変換された画像を生成するメモリベースの画像操作ネットワーク(MIM-Net)を提案する。
頑健なメモリを学習するために,新しいランダム化メモリトレーニング損失を提案する。
4つの一般的なデータセットに対する実験は、既存のデータセットと比較して、我々の手法の優れた性能を示している。
- 参考スコア(独自算出の注目度): 84.74585786082388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image manipulation with natural language, which aims to manipulate images
with the guidance of language descriptions, has been a challenging problem in
the fields of computer vision and natural language processing (NLP). Currently,
a number of efforts have been made for this task, but their performances are
still distant away from generating realistic and text-conformed manipulated
images. Therefore, in this paper, we propose a memory-based Image Manipulation
Network (MIM-Net), where a set of memories learned from images is introduced to
synthesize the texture information with the guidance of the textual
description. We propose a two-stage network with an additional reconstruction
stage to learn the latent memories efficiently. To avoid the unnecessary
background changes, we propose a Target Localization Unit (TLU) to focus on the
manipulation of the region mentioned by the text. Moreover, to learn a robust
memory, we further propose a novel randomized memory training loss. Experiments
on the four popular datasets show the better performance of our method compared
to the existing ones.
- Abstract(参考訳): 自然言語による画像操作は、言語記述の指導によって画像を操作することを目的としており、コンピュータビジョンや自然言語処理(NLP)の分野では難しい問題となっている。
現在、この作業には多くの取り組みがなされているが、そのパフォーマンスは、現実的でテキスト変換された画像の生成から遠く離れている。
そこで,本稿では,テクスチャ情報をテキスト記述のガイダンスで合成するために,画像から学習した記憶の集合が導入されたメモリベース画像マニピュレーションネットワーク(MIM-Net)を提案する。
本稿では,遅延記憶を効率的に学習する2段階ネットワークを提案する。
不要な背景変化を避けるため,テキストが言及する領域の操作に重点を置くターゲットローカライゼーションユニット(TLU)を提案する。
さらに,ロバストメモリを学ぶために,新たなランダムメモリトレーニング損失を提案する。
4つの人気のあるデータセットに関する実験では、既存のデータセットよりも優れた性能を示している。
関連論文リスト
- TIP: Text-Driven Image Processing with Semantic and Restoration
Instructions [69.58439476358595]
TIPは、自然言語をユーザフレンドリーなインターフェースとして活用し、画像復元プロセスを制御する、テキスト駆動の画像処理フレームワークである。
生成前の再スケールを学習することで既存のControlNetアーキテクチャを拡張できる新しい融合機構を導入する。
本実験は,TIPの回復性能を芸術的状況と比較し,テキストによる回復効果の制御の柔軟性を提供するとともに,TIPの回復性能を向上することを示した。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Memory-Based Label-Text Tuning for Few-Shot Class-Incremental Learning [20.87638654650383]
メモリプロンプトを用いてラベルテキスト情報を活用することを提案する。
メモリプロンプトは、新しいデータをシーケンシャルに学習し、一方、前の知識を記憶する。
実験の結果,提案手法は従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-03T13:15:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。