論文の概要: Attract me to Buy: Advertisement Copywriting Generation with Multimodal
Multi-structured Information
- arxiv url: http://arxiv.org/abs/2205.03534v1
- Date: Sat, 7 May 2022 03:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 12:01:13.510646
- Title: Attract me to Buy: Advertisement Copywriting Generation with Multimodal
Multi-structured Information
- Title(参考訳): attract me to buy:マルチモーダル・マルチストラクショナル情報による広告複写生成
- Authors: Zhipeng Zhang, Xinglin Hou, Kai Niu, Zhongzhen Huang, Tiezheng Ge,
Yuning Jiang, Qi Wu, Peng Wang
- Abstract要約: E-MMADは、この分野で最大のビデオキャプションデータセットの1つであり、特に、この分野では最大のビデオキャプションデータセットの1つである。
本稿では,本データセットにおける現実の需要を解決するため,構造化情報推論の強度に基づくベースライン手法と忠実度評価指標を提案する。
- 参考スコア(独自算出の注目度): 28.22492232758557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, online shopping has gradually become a common way of shopping for
people all over the world. Wonderful merchandise advertisements often attract
more people to buy. These advertisements properly integrate multimodal
multi-structured information of commodities, such as visual spatial information
and fine-grained structure information. However, traditional multimodal text
generation focuses on the conventional description of what existed and
happened, which does not match the requirement of advertisement copywriting in
the real world. Because advertisement copywriting has a vivid language style
and higher requirements of faithfulness. Unfortunately, there is a lack of
reusable evaluation frameworks and a scarcity of datasets. Therefore, we
present a dataset, E-MMAD (e-commercial multimodal multi-structured
advertisement copywriting), which requires, and supports much more detailed
information in text generation. Noticeably, it is one of the largest video
captioning datasets in this field. Accordingly, we propose a baseline method
and faithfulness evaluation metric on the strength of structured information
reasoning to solve the demand in reality on this dataset. It surpasses the
previous methods by a large margin on all metrics. The dataset and method are
coming soon on \url{https://e-mmad.github.io/e-mmad.net/index.html}.
- Abstract(参考訳): 近年、オンラインショッピングは世界中の人々の買い物の一般的な方法になりつつある。
奇妙な商品広告は、購入する人を多く惹きつける。
これらの広告は、視覚的空間情報やきめ細かい構造情報といった商品のマルチモーダル多構造情報を適切に統合する。
しかし、伝統的なマルチモーダルテキスト生成は、現実の世界における広告のコピーライティングの要件に合致しない、存在と発生の従来の記述に焦点を当てている。
広告の写しは鮮明な言語スタイルと忠実さの要求が高いためである。
残念ながら、再利用可能な評価フレームワークがなく、データセットが不足している。
そこで本稿では,E-MMAD(e-commercial multi-structured ads copywriting)というデータセットを提案する。
特に、この分野では最大のビデオキャプションデータセットの1つである。
そこで本研究では,データ集合上の現実の需要を解決するための構造化情報推論の強みに関するベースライン法と忠実性評価指標を提案する。
従来の手法を、すべてのメトリクスに対して大きなマージンで上回る。
データセットとメソッドは、もうすぐ \url{https://e-mmad.github.io/e-mmad.net/index.html}で提供される。
関連論文リスト
- Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Converging Dimensions: Information Extraction and Summarization through Multisource, Multimodal, and Multilingual Fusion [0.0]
本稿では,複数の情報源の強みを生かして,このような課題に対処する新たな要約手法を提案する。
この研究は、テキストドキュメントのような従来型にない情報源を超えて進展し、YouTubeのプレイリスト、プレプリント、ウィキペディアページなど、より多様なデータを統合している。
論文 参考訳(メタデータ) (2024-06-19T17:15:47Z) - MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal
Sponsored Search [27.42717207107]
クロスモーダルスポンサー検索は、消費者が検索エンジンで自然言語クエリーによって望ましい商品を探す際に、マルチモーダル広告(ads)を表示する。
画像とテキストの両方で広告特有の情報を調整できることは、正確で柔軟なスポンサー付き検索に不可欠だ。
広告画像の細粒度部分を対応するテキストに明示的にマッピングする単純なアライメントネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:43:57Z) - Cross-view Semantic Alignment for Livestreaming Product Recognition [24.38606354376169]
LPR4Mは34のカテゴリをカバーする大規模マルチモーダルデータセットである。
LPR4Mは様々なビデオとノイズモードのペアを含み、長い尾の分布を示す。
クロスビューパッチ間のセマンティックなミスアライメントをペナルティ化するために、新しいパッチ特徴再構成損失を提案する。
論文 参考訳(メタデータ) (2023-08-09T12:23:41Z) - Multimodal Prompt Learning for Product Title Generation with Extremely
Limited Labels [66.54691023795097]
本稿では,ラベルが限定された新商品のタイトルを生成するためのプロンプトベースアプローチ,すなわちマルチモーダル・プロンプト学習フレームワークを提案する。
我々は、新しい製品の対応する特性と書体を維持するために、異なるモダリティから多モーダルなプロンプトのセットを構築する。
トレーニング用ラベル付きデータの完全化により,本手法は最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-07-05T00:40:40Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - MTTN: Multi-Pair Text to Text Narratives for Prompt Generation [0.0]
MTTN は 2.4M 以上の文からなり、5 つの段階にまたがって 12M 以上のペアを合成する。
オリジナルの2.4億組のペアは、インターネットリンゴの真のシナリオを生み出すような方法で分解されている。
論文 参考訳(メタデータ) (2023-01-21T06:55:44Z) - Multi-Modal Attribute Extraction for E-Commerce [4.626261940793027]
モダリティをシームレスに組み合わせるための新しいアプローチを開発しており、これは我々の単一モダリティ調査にインスパイアされている。
楽天・一葉データの実験は、我々のアプローチの利点の実証的な証拠を提供する。
論文 参考訳(メタデータ) (2022-03-07T14:48:44Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。