Fugu-MT 論文翻訳(概要): Aesthetic Language Guidance Generation of Images Using Attribute Comparison

論文の概要: Aesthetic Language Guidance Generation of Images Using Attribute Comparison

arxiv url: http://arxiv.org/abs/2208.04740v1
Date: Tue, 9 Aug 2022 12:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-10 12:45:03.440823
Title: Aesthetic Language Guidance Generation of Images Using Attribute Comparison
Title（参考訳）: 属性比較による画像の美的言語指導
Authors: Xin Jin, Qiang Deng, Jianwen Lv, Heng Huang, Hao Lou, Chaoen Xiao
Abstract要約: インテリジェントな機器やアルゴリズムの改善は、人間の主観的写真技術を置き換えることはできない。 ALG-TとALG-Iに画像の美的言語指導を分割した。 ALG-TとALG-Iは2種類の入力画像に対してそれぞれ美的言語指導を行う。
参考スコア（独自算出の注目度）: 68.01313297926109
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the vigorous development of mobile photography technology, major mobile phone manufacturers are scrambling to improve the shooting ability of equipments and the photo beautification algorithm of software. However, the improvement of intelligent equipments and algorithms cannot replace human subjective photography technology. In this paper, we propose the aesthetic language guidance of image (ALG). We divide ALG into ALG-T and ALG-I according to whether the guiding rules are based on photography templates or guidance images. Whether it is ALG-T or ALG-I, we guide photography from three attributes of color, lighting and composition of the images. The differences of the three attributes between the input images and the photography templates or the guidance images are described in natural language, which is aesthetic natural language guidance (ALG). Also, because of the differences in lighting and composition between landscape images and portrait images, we divide the input images into landscape images and portrait images. Both ALG-T and ALG-I conduct aesthetic language guidance respectively for the two types of input images (landscape images and portrait images).
Abstract（参考訳）: モバイル写真技術の活発な発展に伴い、大手携帯電話メーカーは、機器の撮影能力とソフトウェアの写真美化アルゴリズムの改善に躍起になっている。しかし、インテリジェントな機器やアルゴリズムの改善は、人間の主観的写真技術を置き換えることはできない。本稿では,画像の美的言語ガイダンス(ALG)を提案する。 alg を alg-t と alg-i に分割し, 誘導規則が写真テンプレートや誘導画像に基づいているか否かについて検討した。 alg-tであれalg-iであれ、画像の色、照明、構成の3つの属性から撮影を導く。 aesthetic natural language guidance (alg) である自然言語において、入力画像と写真テンプレートまたはガイダンス画像の3つの属性の違いを述べる。また、ランドスケープ画像とポートレート画像の照明と構成の違いから、入力画像はランドスケープ画像とポートレート画像に分割する。 ALG-TとALG-Iは2種類の入力画像(ランドスケープ画像とポートレート画像)に対してそれぞれ美的言語指導を行う。

関連論文リスト

Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework [1.5998912722142729]
Let Androids Dream (LAD)は、画像の意味理解と推論のための新しいフレームワークである。軽量なGPT-4o-miniモデルを用いたフレームワークは、英語のイメージ含意ベンチマークで15以上のMLLMと比較してSOTA性能を実現している。私たちの研究は、AIがイメージ含意をより効果的に解釈する方法について、新たな洞察を提供する。
論文参考訳（メタデータ） (2025-05-22T17:59:53Z)
LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文参考訳（メタデータ） (2024-11-28T13:55:06Z)
Learning AND-OR Templates for Professional Photograph Parsing and Guidance [5.906114868515906]
写真画像から階層的再構成可能な画像テンプレートを学習し、これらの画像に使用される「テンプレート」を学習し、特徴付ける。実験結果から,学習したテンプレートが写真技術やスタイルをうまく記述できるのに対し,提案手法は画像の品質を人間のように評価できることがわかった。
論文参考訳（メタデータ） (2024-10-08T15:27:19Z)
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文参考訳（メタデータ） (2024-09-23T17:59:46Z)
PhotoBot: Reference-Guided Interactive Photography via Natural Language [15.486784377142314]
PhotoBotは、ハイレベルな人間の言語指導とロボット写真家との相互作用に基づく、完全な自動写真取得のためのフレームワークである。視覚言語モデル(VLM)とオブジェクトマニピュレータを用いて参照画像の特徴付けを行う。また、ユーザの言語クエリに基づいて、関連する参照画像を取得するために、LLM(Big Language Model)も使用しています。
論文参考訳（メタデータ） (2024-01-19T23:34:48Z)
Improving Generalization of Image Captioning with Unsupervised Prompt Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。 GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文参考訳（メタデータ） (2023-08-05T12:27:01Z)
VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-03-24T23:57:28Z)
Designing An Illumination-Aware Network for Deep Image Relighting [69.750906769976]
本稿では、階層的なサンプリングから1つの画像からシーンを段階的にリライトするためのガイダンスに従うイルミネーション・アウェア・ネットワーク(IAN)を提案する。さらに、物理レンダリングプロセスの近似として、イルミネーション・アウェア・残留ブロック(IARB)が設計されている。実験の結果,提案手法は従来の最先端手法よりも定量的,定性的な照準結果が得られることがわかった。
論文参考訳（メタデータ） (2022-07-21T16:21:24Z)
Deep Portrait Lighting Enhancement with 3D Guidance [24.01582513386902]
顔の3次元誘導に基づくポートレートライティング向上のための新しいディープラーニングフレームワークを提案する。 FFHQデータセットと画像内画像による実験結果から,提案手法は定量的な計測値と視覚的品質の両方の観点から,最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-04T15:49:09Z)
Recapture as You Want [140.6691726604726]
本稿では,利用者が望む姿勢,身体像,衣服スタイルに手軽に自分の肖像画を編集できるポートレート・リキャプチャー手法を提案する。編集手順を意味論的幾何学的・外見的変換に分解する。外観変換では,セマンティック・アウェア・アテンタティブ・トランスファー (SAT) とレイアウトグラフ推論 (LGR) という2つの新しいモジュールを設計する。
論文参考訳（メタデータ） (2020-06-02T07:43:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。