論文の概要: Improving Contextual Congruence Across Modalities for Effective
Multimodal Marketing using Knowledge-infused Learning
- arxiv url: http://arxiv.org/abs/2402.03607v1
- Date: Tue, 6 Feb 2024 00:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:06:30.065262
- Title: Improving Contextual Congruence Across Modalities for Effective
Multimodal Marketing using Knowledge-infused Learning
- Title(参考訳): 知識融合学習を用いた効果的なマルチモーダルマーケティングのためのモダリティ間の文脈一致の改善
- Authors: Trilok Padhi, Ugur Kursuncu, Yaman Kumar, Valerie L. Shalin, Lane
Peterson Fronczek
- Abstract要約: 大規模言語 (LLM) とビジョンモデル (LVM) は、いまだに、モーダルなセマンティックな関係を持つ全体的意味を捉えている。
我々は、ダウンストリームタスクの性能を向上させるために、大きなVLMを持つ知識グラフの形で、明示的なコモンセンス知識を結合するフレームワークを設計する。
提案手法は,潜在的に説得力のあるマルチモーダルキャンペーンの早期発見と,マーケティング理論の評価と強化を可能にする。
- 参考スコア(独自算出の注目度): 3.3281180957341117
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The prevalence of smart devices with the ability to capture moments in
multiple modalities has enabled users to experience multimodal information
online. However, large Language (LLMs) and Vision models (LVMs) are still
limited in capturing holistic meaning with cross-modal semantic relationships.
Without explicit, common sense knowledge (e.g., as a knowledge graph), Visual
Language Models (VLMs) only learn implicit representations by capturing
high-level patterns in vast corpora, missing essential contextual cross-modal
cues. In this work, we design a framework to couple explicit commonsense
knowledge in the form of knowledge graphs with large VLMs to improve the
performance of a downstream task, predicting the effectiveness of multi-modal
marketing campaigns. While the marketing application provides a compelling
metric for assessing our methods, our approach enables the early detection of
likely persuasive multi-modal campaigns and the assessment and augmentation of
marketing theory.
- Abstract(参考訳): 複数のモーダルでモーメントをキャプチャできるスマートデバイスの普及により、ユーザはオンラインでマルチモーダル情報を体験できるようになった。
しかし、大きな言語(LLM)とビジョンモデル(LVM)は、相反する意味関係を持つ全体的意味を捉えることにはまだ限界がある。
明示的で常識的な知識(例えば知識グラフ)がなければ、視覚言語モデル(vlms)は、巨大なコーパスでハイレベルなパターンを捉えて暗黙的な表現のみを学習し、必須の文脈横断的手がかりを欠く。
本研究では,ダウンストリームタスクの性能を向上させるために,知識グラフの形で明示的な常識知識を結合するフレームワークを設計し,マルチモーダルマーケティングキャンペーンの有効性を予測した。
マーケティングアプリケーションは,提案手法を評価するための説得力のある指標を提供するが,本手法は,多モードキャンペーンの可能性を早期に検出し,マーケティング理論の評価と拡張を可能にする。
関連論文リスト
- SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context
Learning [44.10449890564619]
本稿では,視覚言語モデルによるマルチモーダル入力を効率的に処理するための新しいアプローチであるMMICLを紹介する。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
解析の結果,MMICLは複雑なマルチモーダル素早い理解の課題に効果的に取り組み,印象的なICL能力を実現していることがわかった。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Retrieval-based Knowledge Augmented Vision Language Pre-training [9.779887832992435]
知識強化事前学習の主な課題は、知識とマルチモーダルデータの間の明確なつながりの欠如である。
本研究では,Retrieval-based knowledge Augmented Vision Language (REAVL)を提案する。
本稿では,知識とマルチモーダルデータとの対応性を効果的に確立する知識認識型自己教師型学習手法を初めて導入する。
論文 参考訳(メタデータ) (2023-04-27T02:23:47Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。