論文の概要: Embedding Arithmetic for Text-driven Image Transformation
- arxiv url: http://arxiv.org/abs/2112.03162v1
- Date: Mon, 6 Dec 2021 16:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 14:24:13.338812
- Title: Embedding Arithmetic for Text-driven Image Transformation
- Title(参考訳): テキスト駆動画像変換のための埋め込み算術
- Authors: Guillaume Couairon, Matthieu Cord, Matthijs Douze, Holger Schwenk
- Abstract要約: テキスト表現は、有名なアナロジーのような幾何学的規則性を示す。
最近の研究は、このセマンティックギャップを、画像とテキストをマルチモーダル空間に埋め込むことを目的としている。
SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。
- 参考スコア(独自算出の注目度): 48.7704684871689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Latent text representations exhibit geometric regularities, such as the
famous analogy: queen is to king what woman is to man. Such structured semantic
relations were not demonstrated on image representations. Recent works aiming
at bridging this semantic gap embed images and text into a multimodal space,
enabling the transfer of text-defined transformations to the image modality.
We introduce the SIMAT dataset to evaluate the task of text-driven image
transformation. SIMAT contains 6k images and 18k "transformation queries" that
aim at either replacing scene elements or changing their pairwise
relationships. The goal is to retrieve an image consistent with the (source
image, transformation) query. We use an image/text matching oracle (OSCAR) to
assess whether the image transformation is successful. The SIMAT dataset will
be publicly available.
We use SIMAT to show that vanilla CLIP multimodal embeddings are not very
well suited for text-driven image transformation, but that a simple finetuning
on the COCO dataset can bring dramatic improvements. We also study whether it
is beneficial to leverage the geometric properties of pretrained universal
sentence encoders (FastText, LASER and LaBSE).
- Abstract(参考訳): 潜伏したテキスト表現は、有名なアナロジー:クイーンは王であり、女性は人間である。
このような構造的意味関係は画像表現では示されなかった。
画像とテキストをマルチモーダル空間に埋め込み、テキストで定義された変換を画像モダリティに転送可能にする、このセマンティックギャップの橋渡しを目的とした最近の研究。
SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。
simatには6kイメージと18kの"トランスフォーメーションクエリ"が含まれており、シーン要素の置き換えやペア関係の変更を目標としている。
目標は、(ソースイメージ、変換)クエリと整合したイメージを取得することだ。
我々は、画像変換が成功したかどうかを評価するために、画像/テキストマッチングオラクル(OSCAR)を使用する。
SIMATデータセットが公開される。
我々はSIMATを用いて、バニラCLIPのマルチモーダル埋め込みがテキスト駆動型画像変換にはあまり適していないことを示すが、COCOデータセットの簡単な微調整は劇的な改善をもたらす可能性がある。
また、事前訓練された普遍文エンコーダ(FastText, LASER, LaBSE)の幾何学的特性を活用することが有用かどうかについても検討した。
関連論文リスト
- Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Image Captioning through Image Transformer [29.91581534937757]
変形符号化変換器と暗黙復号変換器からなるtextbftextitimage transformer を導入する。
本モデルでは,MSCOCOのオフラインおよびオンラインテストベンチマークにおいて,最新の性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:30:57Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。