論文の概要: SUMMA: A Multimodal Large Language Model for Advertisement Summarization
- arxiv url: http://arxiv.org/abs/2508.20582v1
- Date: Thu, 28 Aug 2025 09:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.272425
- Title: SUMMA: A Multimodal Large Language Model for Advertisement Summarization
- Title(参考訳): SUMMA: 要約のためのマルチモーダル大言語モデル
- Authors: Weitao Jia, Shuo Yin, Zhoufutu Wen, Han Wang, Zehui Dai, Kun Zhang, Zhenyu Li, Tao Zeng, Xiaohui Lv,
- Abstract要約: 本研究では,ビデオ広告を商品価値の高いコンテンツを強調する要約に加工するモデルであるSUMMAを提案する。
SUMMAは2段階の訓練戦略-マルチモーダル指導型微調整と強化学習によって開発される。
オンライン実験は、統計的に広告収入が1.5%増加したことを示している。
- 参考スコア(独自算出の注目度): 15.514886325064792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding multimodal video ads is crucial for improving query-ad matching and relevance ranking on short video platforms, enhancing advertising effectiveness and user experience. However, the effective utilization of multimodal information with high commercial value still largely constrained by reliance on highly compressed video embeddings-has long been inadequate. To address this, we propose SUMMA (the abbreviation of Summarizing MultiModal Ads), a multimodal model that automatically processes video ads into summaries highlighting the content of highest commercial value, thus improving their comprehension and ranking in Douyin search-advertising systems. SUMMA is developed via a two-stage training strategy-multimodal supervised fine-tuning followed by reinforcement learning with a mixed reward mechanism-on domain-specific data containing video frames and ASR/OCR transcripts, generating commercially valuable and explainable summaries. We integrate SUMMA-generated summaries into our production pipeline, directly enhancing the candidate retrieval and relevance ranking stages in real search-advertising systems. Both offline and online experiments show substantial improvements over baselines, with online results indicating a statistically significant 1.5% increase in advertising revenue. Our work establishes a novel paradigm for condensing multimodal information into representative texts, effectively aligning visual ad content with user query intent in retrieval and recommendation scenarios.
- Abstract(参考訳): マルチモーダルなビデオ広告を理解することは、短いビデオプラットフォーム上でのクェリアドマッチングと関連性ランキングの改善、広告効果とユーザエクスペリエンスの向上に不可欠である。
しかし,高度に圧縮されたビデオ埋め込みに依存したマルチモーダル情報の商業価値の高い有効利用は,長年にわたって不十分であった。
そこで我々は,SUMMA(Summarizing MultiModal Adsの略)を提案する。このマルチモーダルモデルでは,ビデオ広告を自動的に要約処理し,最大商業価値のコンテンツを強調することで,Douyin検索広告システムにおける理解とランキングを改善する。
SUMMAは、ビデオフレームとASR/OCR書き起こしを含むドメイン固有データと混合報酬機構による強化学習を経て、2段階の訓練戦略・マルチモーダル微調整によって開発され、商業的価値と説明可能な要約を生成する。
我々は,SUMMA生成サマリーを生産パイプラインに統合し,実際の検索広告システムにおける候補検索と関連ランキングのステージを直接強化する。
オフラインとオンラインの両方の実験はベースラインよりも大幅に改善され、オンラインの結果は統計的に広告収入が1.5%増加したことを示している。
本研究は,マルチモーダル情報を代表テキストに凝縮する新たなパラダイムを確立し,検索・推薦シナリオにおいて,ビジュアル広告コンテンツとユーザクエリ意図を効果的に整合させる。
関連論文リスト
- TeamCMU at Touché: Adversarial Co-Evolution for Advertisement Integration and Detection in Conversational Search [1.187456026346823]
広告を生成された応答に統合することは、商業的機会とユーザエクスペリエンスの課題の両方を示します。
本稿では,RAGに基づく対話システムにおいて,シームレスな広告統合のためのアドリライターと,検出のための堅牢な広告分類器からなる広告管理のためのモジュールパイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-01T07:24:29Z) - HCMRM: A High-Consistency Multimodal Relevance Model for Search Ads [10.61722566941537]
本稿では,広告システムにおけるランク付けの有効性を高めるために,クエリ・ツー・ビデオの関連性マッチングの改善に焦点をあてる。
これは、トレーニング前タスクと関連タスクの整合性を高めるために、シンプルだが効果的な方法を利用している。
提案手法はクアイシュ州検索広告システムに1年以上展開され、無関係広告の割合が6.1%減少し、広告収入が1.4%増加した。
論文 参考訳(メタデータ) (2025-02-09T09:07:11Z) - CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising [2.330164376631038]
コンテキスト広告は、ユーザーが見ているコンテンツに沿った広告を提供する。
共同マルチモーダルトレーニングに基づく現在のテキスト・ビデオ検索モデルでは,大規模なデータセットと計算資源が要求される。
本研究では,コンテキスト広告に特化して設計されたマルチモーダル専門家によるビデオ検索システムであるContextIQを紹介する。
論文 参考訳(メタデータ) (2024-10-29T17:01:05Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - MM-AU:Towards Multimodal Understanding of Advertisement Videos [38.117243603403175]
複数のWebソースから8.4Kビデオ(147時間)をキュレートしたマルチモーダルマルチ言語ベンチマークMM-AUを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
論文 参考訳(メタデータ) (2023-08-27T09:11:46Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - Multi-modal Representation Learning for Video Advertisement Content
Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文 参考訳(メタデータ) (2021-09-04T09:08:29Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。