論文の概要: Enhancing Cross-Modal Contextual Congruence for Crowdfunding Success using Knowledge-infused Learning
- arxiv url: http://arxiv.org/abs/2402.03607v2
- Date: Sun, 17 Nov 2024 21:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:42.175175
- Title: Enhancing Cross-Modal Contextual Congruence for Crowdfunding Success using Knowledge-infused Learning
- Title(参考訳): 知識注入学習によるクラウドファンド成功のためのクロスモーダルコングルーエンスの実現
- Authors: Trilok Padhi, Ugur Kursuncu, Yaman Kumar, Valerie L. Shalin, Lane Peterson Fronczek,
- Abstract要約: この研究は、知識グラフからの外部コモンセンス知識を取り入れ、コンパクトなビジュアル言語モデル(VLM)を用いたマルチモーダルデータの表現を強化する。
以上の結果から,外部知識がテキストと画像モダリティのセマンティックギャップを橋渡しし,知識を注入した表現により,ベースライン上でのキャンペーン成功の予測性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 3.1021397647755613
- License:
- Abstract: The digital landscape continually evolves with multimodality, enriching the online experience for users. Creators and marketers aim to weave subtle contextual cues from various modalities into congruent content to engage users with a harmonious message. This interplay of multimodal cues is often a crucial factor in attracting users' attention. However, this richness of multimodality presents a challenge to computational modeling, as the semantic contextual cues spanning across modalities need to be unified to capture the true holistic meaning of the multimodal content. This contextual meaning is critical in attracting user engagement as it conveys the intended message of the brand or the organization. In this work, we incorporate external commonsense knowledge from knowledge graphs to enhance the representation of multimodal data using compact Visual Language Models (VLMs) and predict the success of multi-modal crowdfunding campaigns. Our results show that external knowledge commonsense bridges the semantic gap between text and image modalities, and the enhanced knowledge-infused representations improve the predictive performance of models for campaign success upon the baselines without knowledge. Our findings highlight the significance of contextual congruence in online multimodal content for engaging and successful crowdfunding campaigns.
- Abstract(参考訳): デジタルランドスケープは、マルチモーダリティによって継続的に進化し、ユーザのオンラインエクスペリエンスを豊かにします。
クリエーターやマーケターは、さまざまなモダリティからの微妙な文脈的手がかりを、調和したコンテンツに織り込むことで、ユーザーを調和したメッセージでエンゲージすることを目指している。
このマルチモーダル・キューの相互作用は、ユーザの注意を引き付ける上で重要な要素であることが多い。
しかし、このマルチモーダルの豊かさは、マルチモーダルコンテンツの真の全体的意味を捉えるために、モーダル性にまたがる意味的な文脈的手がかりを統一する必要があるため、計算モデルに挑戦する。
このコンテキスト的意味は、ブランドや組織の意図したメッセージを伝えることによって、ユーザエンゲージメントを引き付ける上で重要である。
本研究では、知識グラフから外部のコモンセンス知識を取り入れ、コンパクトなビジュアル言語モデル(VLM)を用いたマルチモーダルデータの表現を強化し、マルチモーダルクラウドファンディングの成功を予測する。
以上の結果から,外部知識がテキストと画像モダリティのセマンティックギャップを橋渡しし,知識を注入した表現により,ベースライン上でのキャンペーン成功の予測性能が向上することが示唆された。
本研究は,オンラインマルチモーダルコンテンツにおけるコンテクストコングロスの重要性を明らかにする。
関連論文リスト
- Turbo your multi-modal classification with contrastive learning [17.983460380784337]
本稿では,マルチモーダル理解を促進するために,$Turbo$と呼ばれる新しいコントラスト学習戦略を提案する。
具体的には、マルチモーダルデータペアは、異なる隠されたドロップアウトマスクでフォワードパスを2回送って、各モダリティに対して2つの異なる表現を得る。
これらの表現により、トレーニングのための複数のインモーダルおよびクロスモーダルのコントラスト目的が得られる。
論文 参考訳(メタデータ) (2024-09-14T03:15:34Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。
本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。
我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文 参考訳(メタデータ) (2024-07-10T10:13:11Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - CISum: Learning Cross-modality Interaction to Enhance Multimodal
Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。
視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。
そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2023-02-20T11:57:23Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Visual Persuasion in COVID-19 Social Media Content: A Multi-Modal
Characterization [30.710295617831015]
本研究では,マルチモーダルコンテンツにおける説得情報の結果を分析するための計算手法を提案する。
Twitterでシェアされた新型コロナウイルス関連のニュース記事において、人気と信頼性の2つの側面に焦点を当てている。
論文 参考訳(メタデータ) (2021-12-05T02:15:01Z) - MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion
Recognition in Conversation [32.15124603618625]
本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。
MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。
提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
論文 参考訳(メタデータ) (2021-07-14T15:37:02Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。