論文の概要: Generating Compositional Color Representations from Text
- arxiv url: http://arxiv.org/abs/2109.10477v1
- Date: Wed, 22 Sep 2021 01:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:50:54.746427
- Title: Generating Compositional Color Representations from Text
- Title(参考訳): テキストから合成色表現を生成する
- Authors: Paridhi Maheshwari, Nihal Jain, Praneetha Vaddamanu, Dhananjay Raut,
Shraiysh Vaishay, Vishwa Vinay
- Abstract要約: 画像検索エンジン上のユーザクエリのかなりの部分が(属性、オブジェクト)構造に従っているという事実に触発され、このような大局的な色プロファイルを生成する生成逆ネットワークを提案する。
コンポジションを学ぶためにパイプラインを設計します - 見た属性とオブジェクトを、目に見えないペアに組み合わせる機能です。
- 参考スコア(独自算出の注目度): 3.141061579698638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the cross-modal task of producing color representations for text
phrases. Motivated by the fact that a significant fraction of user queries on
an image search engine follow an (attribute, object) structure, we propose a
generative adversarial network that generates color profiles for such bigrams.
We design our pipeline to learn composition - the ability to combine seen
attributes and objects to unseen pairs. We propose a novel dataset curation
pipeline from existing public sources. We describe how a set of phrases of
interest can be compiled using a graph propagation technique, and then mapped
to images. While this dataset is specialized for our investigations on color,
the method can be extended to other visual dimensions where composition is of
interest. We provide detailed ablation studies that test the behavior of our
GAN architecture with loss functions from the contrastive learning literature.
We show that the generative model achieves lower Frechet Inception Distance
than discriminative ones, and therefore predicts color profiles that better
match those from real images. Finally, we demonstrate improved performance in
image retrieval and classification, indicating the crucial role that color
plays in these downstream tasks.
- Abstract(参考訳): テキストフレーズの色表現を生成するためのクロスモーダルなタスクについて検討する。
画像検索エンジン上のユーザクエリのかなりの割合が(属性,オブジェクト)構造に従うという事実に動機づけられ,このようなbigramのカラープロファイルを生成する生成型逆ネットワークを提案する。
コンポジションを学ぶためにパイプラインを設計します - 見た属性とオブジェクトを、目に見えないペアに組み合わせる機能です。
本稿では,既存の公開資料から新たなデータセットキュレーションパイプラインを提案する。
本稿では,グラフ伝搬手法を用いて興味のあるフレーズ群をコンパイルし,画像にマッピングする方法について述べる。
このデータセットは色の研究に特化していますが、組成が興味のある他の視覚次元にまで拡張することができます。
比較学習文献からの損失関数を用いてganアーキテクチャの挙動を検査する詳細なアブレーション研究を行う。
生成モデルでは,識別モデルよりもフレーシェ・インセプション・ディスタンス(Frechet Inception Distance)が低く,実際の画像とよく一致する色プロファイルを予測できることを示す。
最後に、画像検索と分類における性能向上を示し、これらの下流タスクにおいて色が果たす重要な役割を示す。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - ParaColorizer: Realistic Image Colorization using Parallel Generative
Networks [1.7778609937758327]
グレースケール画像のカラー化は、情報復元のためのAIの魅力的な応用である。
並列なGANベースのカラー化フレームワークを提案する。
マルチモーダル問題を評価するために一般的に使用される非知覚的評価指標の欠点を示す。
論文 参考訳(メタデータ) (2022-08-17T13:49:44Z) - Detecting Recolored Image by Spatial Correlation [60.08643417333974]
画像のリカラー化は、画像の色値を操作して新しいスタイルを与える、新たな編集技術である。
本稿では,空間相関の観点から,従来型と深層学習による再色検出の汎用的検出能力を示す解を探索する。
提案手法は,複数のベンチマークデータセット上での最先端検出精度を実現し,未知の種類の再色法を適切に一般化する。
論文 参考訳(メタデータ) (2022-04-23T01:54:06Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - TUCaN: Progressively Teaching Colourisation to Capsules [13.50327471049997]
TUCaN(Tiny UCapsNet)という新しいダウンサンプリングアップサンプリングアーキテクチャを提案する。
我々は,色を量化空間内のビンとして識別するピクセルごとの色分類タスクとして,この問題に対処する。
ネットワークをトレーニングするために、標準的なエンドツーエンド学習法とは対照的に、オブジェクトのコンテキストを抽出するプログレッシブラーニング方式を提案する。
論文 参考訳(メタデータ) (2021-06-29T08:44:15Z) - Image Colorization: A Survey and Dataset [94.59768013860668]
本稿では,最先端の深層学習に基づく画像着色技術に関する包括的調査を行う。
既存の着色技法を7つのクラスに分類し、その性能を規定する重要な要因について論じる。
我々は既存のデータセットと提案した画像の両方を用いて、既存の画像のカラー化手法を広範囲に実験的に評価する。
論文 参考訳(メタデータ) (2020-08-25T01:22:52Z) - Words as Art Materials: Generating Paintings with Sequential GANs [8.249180979158815]
大規模な分散データセット上での芸術画像の生成について検討する。
このデータセットには、形状、色、内容など、バリエーションのあるイメージが含まれている。
本稿では,逐次生成適応型ネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-07-08T19:17:14Z) - Semantic-driven Colorization [78.88814849391352]
最近の着色は、白黒画像の着色を学習しながら意味情報を暗黙的に予測する。
そこで本研究では,まず,人間の動作をシミュレートして,画像の理解を学習し,色づけする。
論文 参考訳(メタデータ) (2020-06-13T08:13:30Z) - Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。
我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。
類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文 参考訳(メタデータ) (2020-05-21T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。