論文の概要: Behavior Optimized Image Generation
- arxiv url: http://arxiv.org/abs/2311.10995v1
- Date: Sat, 18 Nov 2023 07:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 12:52:22.052730
- Title: Behavior Optimized Image Generation
- Title(参考訳): 行動最適化画像生成
- Authors: Varun Khurana, Yaman K Singla, Jayakumar Subramanian, Rajiv Ratn Shah,
Changyou Chen, Zhiqiang Xu, Balaji Krishnamurthy
- Abstract要約: 本稿では,画像内容とユーザ行動の両方を理解するBoigLLMを提案する。
本稿では, この課題において, BoigLLM が GPT-3.5 や GPT-4 などの 13 倍のモデルより優れていることを示す。
BoigBenchは1億6800万件の企業ツイートをメディア、ブランド名、投稿時間、合計などのベンチマークデータセットです。
- 参考スコア(独自算出の注目度): 69.9906601767728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The last few years have witnessed great success on image generation, which
has crossed the acceptance thresholds of aesthetics, making it directly
applicable to personal and commercial applications. However, images, especially
in marketing and advertising applications, are often created as a means to an
end as opposed to just aesthetic concerns. The goal can be increasing sales,
getting more clicks, likes, or image sales (in the case of stock businesses).
Therefore, the generated images need to perform well on these key performance
indicators (KPIs), in addition to being aesthetically good. In this paper, we
make the first endeavor to answer the question of "How can one infuse the
knowledge of the end-goal within the image generation process itself to create
not just better-looking images but also "better-performing'' images?''. We
propose BoigLLM, an LLM that understands both image content and user behavior.
BoigLLM knows how an image should look to get a certain required KPI. We show
that BoigLLM outperforms 13x larger models such as GPT-3.5 and GPT-4 in this
task, demonstrating that while these state-of-the-art models can understand
images, they lack information on how these images perform in the real world. To
generate actual pixels of behavior-conditioned images, we train a
diffusion-based model (BoigSD) to align with a proposed BoigLLM-defined reward.
We show the performance of the overall pipeline on two datasets covering two
different behaviors: a stock dataset with the number of forward actions as the
KPI and a dataset containing tweets with the total likes as the KPI, denoted as
BoigBench. To advance research in the direction of utility-driven image
generation and understanding, we release BoigBench, a benchmark dataset
containing 168 million enterprise tweets with their media, brand account names,
time of post, and total likes.
- Abstract(参考訳): 過去数年間、画像生成は美学の受容しきい値を超え、個人や商業のアプリケーションに適用できるような大きな成功を収めてきた。
しかし、特にマーケティングや広告の分野では、美的関心事ではなく、終末の手段としてイメージが作られることが多い。
目標は、売上の増加、クリック数の増加、likes、画像販売(株式ビジネスの場合)などだ。
したがって、生成した画像は、美学的に良いだけでなく、これらの重要なパフォーマンス指標(KPI)によく対応する必要がある。
本稿では,まず「画像生成プロセス内におけるエンドゴールの知識をいかに活用し,より見栄えのよい画像だけでなく,「よりパフォーマンスの高い画像」を作成するか」という問いに答える。
画像内容とユーザの動作の両方を理解するllmであるboigllmを提案する。
BoigLLMは、必要なKPIを取得するために、イメージがどのように見えるかを知っている。
この課題において,BoigLLM は GPT-3.5 や GPT-4 などの 13 倍のモデルより優れており,現状のモデルでは画像の理解が可能であるが,実世界における画像の動作に関する情報がないことを示す。
動作条件付き画像の実際のピクセルを生成するために,提案したBoigLLM定義報酬と一致する拡散ベースモデル(BoigSD)を訓練する。
ここでは,KPIとしてフォワードアクションの数を示すストックデータセットと,KPIとしてツイートを含むデータセットであるBoigBenchという2つの異なる行動をカバーする2つのデータセットに対して,パイプライン全体のパフォーマンスを示す。
ユーティリティ駆動画像生成と理解の方向性について研究を進めるために,メディア,ブランドアカウント名,投稿時間,合計などを含む1億6800万件の企業ツイートを含むベンチマークデータセットであるBoigBenchをリリースする。
関連論文リスト
- Fine-Tuning Stable Diffusion XL for Stylistic Icon Generation: A Comparison of Caption Size [0.0]
安定拡散XLの微調整法について述べる。
また、“高品質”が何であるかを適切に定義することがいかに重要であるかも示します。
論文 参考訳(メタデータ) (2024-07-11T13:55:20Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Towards Pragmatic Semantic Image Synthesis for Urban Scenes [4.36080478413575]
合成画像とラベル付きデータセットとラベルなしの実画像付きデータセットが与えられた場合、入力マスクの内容と実際の画像の外観で画像を生成することができるモデルを学ぶことが目的である。
合成画像は, パッチレベルでの高次特徴の違いをペナルティ化することにより, 生成画像の内容のガイドとして活用する。
対象領域のセマンティックな分布に過度に適合する1つの識別器を用いた以前の研究とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
論文 参考訳(メタデータ) (2023-05-16T18:01:12Z) - Search By Image: Deeply Exploring Beneficial Features for Beauty Product
Retrieval [21.78262478923889]
本稿では,ニューラルネットワークによる美容積検索(BPR)の実用的意義について検討する。
我々は様々な種類の画像の特徴を抽出し、これらの特徴がiにとって有益かどうかという興味深い疑問を提起する。
美容製品画像の複数特徴(VM-Net)の組み合わせを理解するために,新しい可変アテンションニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-24T15:38:58Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。