論文の概要: Aesthetic Language Guidance Generation of Images Using Attribute
Comparison
- arxiv url: http://arxiv.org/abs/2208.04740v1
- Date: Tue, 9 Aug 2022 12:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:45:03.440823
- Title: Aesthetic Language Guidance Generation of Images Using Attribute
Comparison
- Title(参考訳): 属性比較による画像の美的言語指導
- Authors: Xin Jin, Qiang Deng, Jianwen Lv, Heng Huang, Hao Lou, Chaoen Xiao
- Abstract要約: インテリジェントな機器やアルゴリズムの改善は、人間の主観的写真技術を置き換えることはできない。
ALG-TとALG-Iに画像の美的言語指導を分割した。
ALG-TとALG-Iは2種類の入力画像に対してそれぞれ美的言語指導を行う。
- 参考スコア(独自算出の注目度): 68.01313297926109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the vigorous development of mobile photography technology, major mobile
phone manufacturers are scrambling to improve the shooting ability of
equipments and the photo beautification algorithm of software. However, the
improvement of intelligent equipments and algorithms cannot replace human
subjective photography technology. In this paper, we propose the aesthetic
language guidance of image (ALG). We divide ALG into ALG-T and ALG-I according
to whether the guiding rules are based on photography templates or guidance
images. Whether it is ALG-T or ALG-I, we guide photography from three
attributes of color, lighting and composition of the images. The differences of
the three attributes between the input images and the photography templates or
the guidance images are described in natural language, which is aesthetic
natural language guidance (ALG). Also, because of the differences in lighting
and composition between landscape images and portrait images, we divide the
input images into landscape images and portrait images. Both ALG-T and ALG-I
conduct aesthetic language guidance respectively for the two types of input
images (landscape images and portrait images).
- Abstract(参考訳): モバイル写真技術の活発な発展に伴い、大手携帯電話メーカーは、機器の撮影能力とソフトウェアの写真美化アルゴリズムの改善に躍起になっている。
しかし、インテリジェントな機器やアルゴリズムの改善は、人間の主観的写真技術を置き換えることはできない。
本稿では,画像の美的言語ガイダンス(ALG)を提案する。
alg を alg-t と alg-i に分割し, 誘導規則が写真テンプレートや誘導画像に基づいているか否かについて検討した。
alg-tであれalg-iであれ、画像の色、照明、構成の3つの属性から撮影を導く。
aesthetic natural language guidance (alg) である自然言語において、入力画像と写真テンプレートまたはガイダンス画像の3つの属性の違いを述べる。
また、ランドスケープ画像とポートレート画像の照明と構成の違いから、入力画像はランドスケープ画像とポートレート画像に分割する。
ALG-TとALG-Iは2種類の入力画像(ランドスケープ画像とポートレート画像)に対してそれぞれ美的言語指導を行う。
関連論文リスト
- PhotoBot: Reference-Guided Interactive Photography via Natural Language [15.486784377142314]
PhotoBotは、ハイレベルな人間の言語指導とロボット写真家との対話に基づく、写真の自動取得のためのフレームワークである。
視覚言語モデル(VLM)とオブジェクトを用いて参照画像の特徴付けを行う。
テキストベースの推論により,ユーザの言語クエリに基づく関連画像の検索を行う。
論文 参考訳(メタデータ) (2024-01-19T23:34:48Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Photo2Relief: Let Human in the Photograph Stand Out [26.102307166656157]
そこで我々は,勾配領域で定義された損失関数を装備することにより,勾配を正確に操作し,ニューラルネットワークを訓練するシグモイド変分関数を導入する。
ネットワークモジュールにおける作業の明確な分割を実現するため,一枚の写真から高品質なリリーフを実現するための2スケールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-21T05:33:57Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Designing An Illumination-Aware Network for Deep Image Relighting [69.750906769976]
本稿では、階層的なサンプリングから1つの画像からシーンを段階的にリライトするためのガイダンスに従うイルミネーション・アウェア・ネットワーク(IAN)を提案する。
さらに、物理レンダリングプロセスの近似として、イルミネーション・アウェア・残留ブロック(IARB)が設計されている。
実験の結果,提案手法は従来の最先端手法よりも定量的,定性的な照準結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-07-21T16:21:24Z) - Deep Portrait Lighting Enhancement with 3D Guidance [24.01582513386902]
顔の3次元誘導に基づくポートレートライティング向上のための新しいディープラーニングフレームワークを提案する。
FFHQデータセットと画像内画像による実験結果から,提案手法は定量的な計測値と視覚的品質の両方の観点から,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-04T15:49:09Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Recapture as You Want [140.6691726604726]
本稿では,利用者が望む姿勢,身体像,衣服スタイルに手軽に自分の肖像画を編集できるポートレート・リキャプチャー手法を提案する。
編集手順を意味論的幾何学的・外見的変換に分解する。
外観変換では,セマンティック・アウェア・アテンタティブ・トランスファー (SAT) とレイアウトグラフ推論 (LGR) という2つの新しいモジュールを設計する。
論文 参考訳(メタデータ) (2020-06-02T07:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。