論文の概要: Recommending Themes for Ad Creative Design via Visual-Linguistic
Representations
- arxiv url: http://arxiv.org/abs/2001.07194v2
- Date: Thu, 27 Feb 2020 23:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:05:48.307391
- Title: Recommending Themes for Ad Creative Design via Visual-Linguistic
Representations
- Title(参考訳): 視覚言語表現による広告創造デザインの推奨テーマ
- Authors: Yichao Zhou, Shaunak Mishra, Manisha Verma, Narayan Bhamidipati, and
Wei Wang
- Abstract要約: 広告クリエイティブストラテジストのためのテーマ(キーワード)推薦システムを提案する。
テーマレコメンデータは、視覚的質問応答(VQA)タスクの結果の集約に基づく。
クロスモーダル表現は分類精度とランク付け精度を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 27.13752835161338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a perennial need in the online advertising industry to refresh ad
creatives, i.e., images and text used for enticing online users towards a
brand. Such refreshes are required to reduce the likelihood of ad fatigue among
online users, and to incorporate insights from other successful campaigns in
related product categories. Given a brand, to come up with themes for a new ad
is a painstaking and time consuming process for creative strategists.
Strategists typically draw inspiration from the images and text used for past
ad campaigns, as well as world knowledge on the brands. To automatically infer
ad themes via such multimodal sources of information in past ad campaigns, we
propose a theme (keyphrase) recommender system for ad creative strategists. The
theme recommender is based on aggregating results from a visual question
answering (VQA) task, which ingests the following: (i) ad images, (ii) text
associated with the ads as well as Wikipedia pages on the brands in the ads,
and (iii) questions around the ad. We leverage transformer based cross-modality
encoders to train visual-linguistic representations for our VQA task. We study
two formulations for the VQA task along the lines of classification and
ranking; via experiments on a public dataset, we show that cross-modal
representations lead to significantly better classification accuracy and
ranking precision-recall metrics. Cross-modal representations show better
performance compared to separate image and text representations. In addition,
the use of multimodal information shows a significant lift over using only
textual or visual information.
- Abstract(参考訳): オンライン広告業界では、オンラインユーザーをブランドに誘うために使用される画像やテキストなど、広告クリエイティビティをリフレッシュする多年にわたるニーズがある。
このようなリフレッシュは、オンラインユーザーの間での広告疲労の可能性を減らし、他の成功キャンペーンからの洞察を関連製品カテゴリーに取り入れるために必要である。
ブランドが与えられたら、新しい広告のテーマを考え出すのは、クリエイティブストラテジストにとって手間と時間を消費するプロセスだ。
ストラテジストは通常、過去の広告キャンペーンに使われた画像やテキスト、ブランドに関する世界の知識からインスピレーションを得ている。
過去の広告キャンペーンにおいて,このようなマルチモーダル情報を介して広告テーマを自動推論するために,広告クリエイティブストラテジストのためのテーマ(キーワード)推薦システムを提案する。
テーマレコメンデータは、以下のものを取り込むヴィジュアル質問応答(vqa)タスクの結果の集約に基づいています。
(i)広告画像
(ii)広告に関連付けられたテキスト、および広告内のブランドのウィキペディアページ、
(iii)広告に関する質問。
VQAタスクの視覚言語表現をトレーニングするために、トランスフォーマーベースのクロスモーダルエンコーダを利用する。
我々はVQAタスクの2つの定式化を分類とランク付けの行に沿って検討し、公開データセットの実験を通して、クロスモーダル表現が分類精度とランク付け精度を著しく向上させることを示した。
クロスモーダル表現は、画像とテキストの別々の表現よりも優れたパフォーマンスを示す。
さらに、マルチモーダル情報の利用は、テキスト情報や視覚情報のみを使用することで、大幅な上昇を示す。
関連論文リスト
- ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising [2.330164376631038]
コンテキスト広告は、ユーザーが見ているコンテンツに沿った広告を提供する。
共同マルチモーダルトレーニングに基づく現在のテキスト・ビデオ検索モデルでは,大規模なデータセットと計算資源が要求される。
本研究では,コンテキスト広告に特化して設計されたマルチモーダル専門家によるビデオ検索システムであるContextIQを紹介する。
論文 参考訳(メタデータ) (2024-10-29T17:01:05Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - AdSEE: Investigating the Impact of Image Style Editing on Advertisement
Attractiveness [25.531489722164178]
本稿では,広告画像のセマンティック編集がオンライン広告の人気に影響を与えるか,あるいは変化させるかを検討する。
そこで我々は,StyleGANに基づく顔のセマンティック編集と広告画像へのインバージョンを導入し,GANベースの顔の潜在表現をクリックレートに寄与させるクリックレート予測器を訓練した。
5日間にわたって行われたオンラインA/Bテストでは、AdSEE編集サンプルのクリックスルー率の増加が、オリジナルの広告のコントロールグループと比較された。
論文 参考訳(メタデータ) (2023-09-15T04:52:49Z) - KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature
Adaptation of Vision-Language Models [40.54372699488922]
我々は、事前学習された視覚言語モデル(VLM)のレンズによる画像広告理解に関する最初の実証的研究を行う。
本稿では,画像広告のマルチモーダル情報を効果的に融合する機能適応戦略を提案する。
論文 参考訳(メタデータ) (2023-05-28T04:49:01Z) - Boost CTR Prediction for New Advertisements via Modeling Visual Content [55.11267821243347]
広告の視覚的内容を利用してCTR予測モデルの性能を向上させる。
過去に蓄積された履歴的ユーザ・アドインタラクションに基づいて,各ビジュアルIDの埋め込みを学習する。
Baiduオンライン広告のCTR予測モデルにビジュアルIDを埋め込んだ後、広告の平均CTRは1.46%改善し、総料金は1.10%増加した。
論文 参考訳(メタデータ) (2022-09-23T17:08:54Z) - Persuasion Strategies in Advertisements [68.70313043201882]
我々は,説得戦略の広範な語彙を導入し,説得戦略を付加した最初の広告画像コーパスを構築した。
次に,マルチモーダル学習による説得戦略予測のタスクを定式化する。
我々は、Fortune-500社の1600件の広告キャンペーンについて、現実世界でケーススタディを実施している。
論文 参考訳(メタデータ) (2022-08-20T07:33:13Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - Multi-Channel Sequential Behavior Networks for User Modeling in Online
Advertising [4.964012641964141]
本稿では,ユーザと広告を意味空間に埋め込むための深層学習手法であるマルチチャネルシーケンシャル行動ネットワーク(mc-sbn)を提案する。
提案するユーザエンコーダアーキテクチャでは,過去の検索クエリや訪問ページ,クリックした広告など,複数の入力チャネルからのユーザアクティビティをユーザベクトルにまとめる。
その結果,MC-SBNは関連広告のランク付けを改善し,クリック予測とコンバージョン予測の両方の性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-12-27T06:13:29Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Learning to Create Better Ads: Generation and Ranking Approaches for Ad
Creative Refinement [26.70647666598025]
i)新しい広告テキストを生成すること、(ii)新しい広告テキストにキーフレーズを推奨すること、(iii)画像タグ(画像中のオブジェクト)を推奨すること。
複数の広告主が実施したA/Bテストに基づいて、劣悪な広告クリエイティブと優良な広告クリエイティブのペアワイズな例を作成します。
また、Yahoo Geminiの広告プラットフォームからのデータを使って、実験から広く適用可能な洞察を共有しています。
論文 参考訳(メタデータ) (2020-08-17T16:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。