Fugu-MT 論文翻訳(概要): Recommending Themes for Ad Creative Design via Visual-Linguistic Representations

論文の概要: Recommending Themes for Ad Creative Design via Visual-Linguistic Representations

arxiv url: http://arxiv.org/abs/2001.07194v2
Date: Thu, 27 Feb 2020 23:05:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-08 05:05:48.307391
Title: Recommending Themes for Ad Creative Design via Visual-Linguistic Representations
Title（参考訳）: 視覚言語表現による広告創造デザインの推奨テーマ
Authors: Yichao Zhou, Shaunak Mishra, Manisha Verma, Narayan Bhamidipati, and Wei Wang
Abstract要約: 広告クリエイティブストラテジストのためのテーマ(キーワード)推薦システムを提案する。テーマレコメンデータは、視覚的質問応答(VQA)タスクの結果の集約に基づく。クロスモーダル表現は分類精度とランク付け精度を著しく向上させることを示した。
参考スコア（独自算出の注目度）: 27.13752835161338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is a perennial need in the online advertising industry to refresh ad creatives, i.e., images and text used for enticing online users towards a brand. Such refreshes are required to reduce the likelihood of ad fatigue among online users, and to incorporate insights from other successful campaigns in related product categories. Given a brand, to come up with themes for a new ad is a painstaking and time consuming process for creative strategists. Strategists typically draw inspiration from the images and text used for past ad campaigns, as well as world knowledge on the brands. To automatically infer ad themes via such multimodal sources of information in past ad campaigns, we propose a theme (keyphrase) recommender system for ad creative strategists. The theme recommender is based on aggregating results from a visual question answering (VQA) task, which ingests the following: (i) ad images, (ii) text associated with the ads as well as Wikipedia pages on the brands in the ads, and (iii) questions around the ad. We leverage transformer based cross-modality encoders to train visual-linguistic representations for our VQA task. We study two formulations for the VQA task along the lines of classification and ranking; via experiments on a public dataset, we show that cross-modal representations lead to significantly better classification accuracy and ranking precision-recall metrics. Cross-modal representations show better performance compared to separate image and text representations. In addition, the use of multimodal information shows a significant lift over using only textual or visual information.
Abstract（参考訳）: オンライン広告業界では、オンラインユーザーをブランドに誘うために使用される画像やテキストなど、広告クリエイティビティをリフレッシュする多年にわたるニーズがある。このようなリフレッシュは、オンラインユーザーの間での広告疲労の可能性を減らし、他の成功キャンペーンからの洞察を関連製品カテゴリーに取り入れるために必要である。ブランドが与えられたら、新しい広告のテーマを考え出すのは、クリエイティブストラテジストにとって手間と時間を消費するプロセスだ。ストラテジストは通常、過去の広告キャンペーンに使われた画像やテキスト、ブランドに関する世界の知識からインスピレーションを得ている。過去の広告キャンペーンにおいて,このようなマルチモーダル情報を介して広告テーマを自動推論するために,広告クリエイティブストラテジストのためのテーマ(キーワード)推薦システムを提案する。テーマレコメンデータは、以下のものを取り込むヴィジュアル質問応答(vqa)タスクの結果の集約に基づいています。 (i)広告画像 (ii)広告に関連付けられたテキスト、および広告内のブランドのウィキペディアページ、 (iii)広告に関する質問。 VQAタスクの視覚言語表現をトレーニングするために、トランスフォーマーベースのクロスモーダルエンコーダを利用する。我々はVQAタスクの2つの定式化を分類とランク付けの行に沿って検討し、公開データセットの実験を通して、クロスモーダル表現が分類精度とランク付け精度を著しく向上させることを示した。クロスモーダル表現は、画像とテキストの別々の表現よりも優れたパフォーマンスを示す。さらに、マルチモーダル情報の利用は、テキスト情報や視覚情報のみを使用することで、大幅な上昇を示す。

関連論文リスト

TeamCMU at Touché: Adversarial Co-Evolution for Advertisement Integration and Detection in Conversational Search [1.187456026346823]
広告を生成された応答に統合することは、商業的機会とユーザエクスペリエンスの課題の両方を示します。本稿では,RAGに基づく対話システムにおいて,シームレスな広告統合のためのアドリライターと,検出のための堅牢な広告分類器からなる広告管理のためのモジュールパイプラインを提案する。
論文参考訳（メタデータ） (2025-07-01T07:24:29Z)
BannerAgency: Advertising Banner Design with Multimodal LLM Agents [4.337357639279586]
本稿では,完全自動バナー広告デザイン作成のためのトレーニングフリーフレームワークを提案する。本稿では,BannerAgencyというMLLMエージェントシステムについて紹介する。マッチングされた背景画像を生成し、前景のデザイン要素のための青写真を作成し、最終的な創造物をFigmaやSVGフォーマットで編集可能なコンポーネントとしてレンダリングする。
論文参考訳（メタデータ） (2025-03-14T03:54:05Z)
CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-02-05T09:06:02Z)
Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文参考訳（メタデータ） (2024-12-09T18:51:05Z)
ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising [2.330164376631038]
コンテキスト広告は、ユーザーが見ているコンテンツに沿った広告を提供する。共同マルチモーダルトレーニングに基づく現在のテキスト・ビデオ検索モデルでは,大規模なデータセットと計算資源が要求される。本研究では,コンテキスト広告に特化して設計されたマルチモーダル専門家によるビデオ検索システムであるContextIQを紹介する。
論文参考訳（メタデータ） (2024-10-29T17:01:05Z)
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。本稿では,AVGという自己回帰ボウケン生成手法を提案する。 AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-24T13:39:51Z)
Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文参考訳（メタデータ） (2024-03-19T17:27:55Z)
AdSEE: Investigating the Impact of Image Style Editing on Advertisement Attractiveness [25.531489722164178]
本稿では,広告画像のセマンティック編集がオンライン広告の人気に影響を与えるか,あるいは変化させるかを検討する。そこで我々は,StyleGANに基づく顔のセマンティック編集と広告画像へのインバージョンを導入し,GANベースの顔の潜在表現をクリックレートに寄与させるクリックレート予測器を訓練した。 5日間にわたって行われたオンラインA/Bテストでは、AdSEE編集サンプルのクリックスルー率の増加が、オリジナルの広告のコントロールグループと比較された。
論文参考訳（メタデータ） (2023-09-15T04:52:49Z)
Long-Term Ad Memorability: Understanding & Generating Memorable Ads [54.23854539909078]
マーケティングやブランドビルディングにおける長期記憶の重要性にもかかわらず、これまで広告の記憶可能性に関する大規模な研究は行われていない。 276のブランドをカバーする1749の参加者と2205の広告からなる,最初の記憶可能性データセットであるLAMBDAをリリースする。異なる参加者のサブポピュレーションや広告タイプに対する統計的テストを実行すると、広告を記憶可能なものにするための興味深い洞察がたくさん見つかる。本稿では,自動アノテートデータを活用することで,高品質な記憶可能な広告生成モデルを構築するためのスケーラブルな手法を提案する。
論文参考訳（メタデータ） (2023-09-01T10:27:04Z)
KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models [40.54372699488922]
我々は、事前学習された視覚言語モデル(VLM)のレンズによる画像広告理解に関する最初の実証的研究を行う。本稿では,画像広告のマルチモーダル情報を効果的に融合する機能適応戦略を提案する。
論文参考訳（メタデータ） (2023-05-28T04:49:01Z)
Boost CTR Prediction for New Advertisements via Modeling Visual Content [55.11267821243347]
広告の視覚的内容を利用してCTR予測モデルの性能を向上させる。過去に蓄積された履歴的ユーザ・アドインタラクションに基づいて,各ビジュアルIDの埋め込みを学習する。 Baiduオンライン広告のCTR予測モデルにビジュアルIDを埋め込んだ後、広告の平均CTRは1.46%改善し、総料金は1.10%増加した。
論文参考訳（メタデータ） (2022-09-23T17:08:54Z)
Persuasion Strategies in Advertisements [68.70313043201882]
我々は,説得戦略の広範な語彙を導入し,説得戦略を付加した最初の広告画像コーパスを構築した。次に,マルチモーダル学習による説得戦略予測のタスクを定式化する。我々は、Fortune-500社の1600件の広告キャンペーンについて、現実世界でケーススタディを実施している。
論文参考訳（メタデータ） (2022-08-20T07:33:13Z)
A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。 2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文参考訳（メタデータ） (2021-08-29T16:06:00Z)
Multi-Channel Sequential Behavior Networks for User Modeling in Online Advertising [4.964012641964141]
本稿では,ユーザと広告を意味空間に埋め込むための深層学習手法であるマルチチャネルシーケンシャル行動ネットワーク(mc-sbn)を提案する。提案するユーザエンコーダアーキテクチャでは,過去の検索クエリや訪問ページ,クリックした広告など,複数の入力チャネルからのユーザアクティビティをユーザベクトルにまとめる。その結果,MC-SBNは関連広告のランク付けを改善し,クリック予測とコンバージョン予測の両方の性能を向上させることができることがわかった。
論文参考訳（メタデータ） (2020-12-27T06:13:29Z)
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-11-03T08:44:18Z)
Learning to Create Better Ads: Generation and Ranking Approaches for Ad Creative Refinement [26.70647666598025]
i)新しい広告テキストを生成すること、(ii)新しい広告テキストにキーフレーズを推奨すること、(iii)画像タグ(画像中のオブジェクト)を推奨すること。複数の広告主が実施したA/Bテストに基づいて、劣悪な広告クリエイティブと優良な広告クリエイティブのペアワイズな例を作成します。また、Yahoo Geminiの広告プラットフォームからのデータを使って、実験から広く適用可能な洞察を共有しています。
論文参考訳（メタデータ） (2020-08-17T16:46:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。