論文の概要: N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space
- arxiv url: http://arxiv.org/abs/2403.12747v1
- Date: Mon, 18 Mar 2024 15:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:03:58.991609
- Title: N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space
- Title(参考訳): N-Modal Contrastive LossesとTrimodal空間におけるソーシャルメディアデータへの応用
- Authors: William Theisen, Walter Scheirer,
- Abstract要約: コンフリクトダイナミクスのソーシャルメディアの展望は、ますますマルチモーダル化している。
CLIPのようなモデルアーキテクチャの最近の進歩により、研究者はテキストのモダリティと画像の共有潜在空間における相互作用を研究することができるようになった。
本稿では,任意のモダリティを許容するコントラッシブ・ロス関数の拡張について検討し,ソーシャルメディア上でのトリモーダル・スペースにおけるその有用性を示す。
新たに収集したTelegramポストの公開データセットを使って,3つのモダリティすべてをトレーニングし,その有用性を2つのOSINTシナリオで示す。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The social media landscape of conflict dynamics has grown increasingly multi-modal. Recent advancements in model architectures such as CLIP have enabled researchers to begin studying the interplay between the modalities of text and images in a shared latent space. However, CLIP models fail to handle situations on social media when modalities present in a post expand above two. Social media dynamics often require understanding the interplay between not only text and images, but video as well. In this paper we explore an extension of the contrastive loss function to allow for any number of modalities, and demonstrate its usefulness in trimodal spaces on social media. By extending CLIP into three dimensions we can further aide understanding social media landscapes where all three modalities are present (an increasingly common situation). We use a newly collected public data set of Telegram posts containing all three modalities to train, and then demonstrate the usefulness of, a trimodal model in two OSINT scenarios: classifying a social media artifact post as either pro-Russian or pro-Ukrainian and identifying which account a given artifact originated from. While trimodal CLIP models have been explored before (though not on social media data), we also display a novel quadmodal CLIP model. This model can learn the interplay between text, image, video, and audio. We demonstrate new state-of-the-art baseline results on retrieval for quadmodel models moving forward.
- Abstract(参考訳): コンフリクトダイナミクスのソーシャルメディアの展望は、ますますマルチモーダル化している。
CLIPのようなモデルアーキテクチャの最近の進歩により、研究者はテキストのモダリティと画像の共有潜在空間における相互作用を研究することができるようになった。
しかし、CLIPモデルでは、投稿中のモダリティが2つを超えると、ソーシャルメディア上の状況に対処できない。
ソーシャルメディアのダイナミクスは、テキストと画像の相互作用を理解するだけでなく、ビデオも理解する必要があることが多い。
本稿では,任意のモダリティを許容するコントラッシブ・ロス関数の拡張について検討し,ソーシャルメディア上でのトリモーダル・スペースにおけるその有用性を示す。
CLIPを3次元に拡張することで、3つのモダリティがすべて存在するソーシャルメディアの風景(より一般的な状況)の理解をさらに助長することができる。
我々は、新たに収集された3つのモダリティを含むTelegramポストの公開データセットを使用して、2つのOSINTシナリオにおけるトリモーダルモデルの有用性を実証する。
トリモーダルCLIPモデルはこれまで検討されてきたが(ソーシャルメディアデータにはないが)、新しいクアッドモーダルCLIPモデルも提示する。
このモデルは、テキスト、画像、ビデオ、オーディオ間の相互作用を学ぶことができる。
クアッドモデルモデルに対する検索における最新技術ベースラインの新たな結果を示す。
関連論文リスト
- A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - C-CLIP: Contrastive Image-Text Encoders to Close the
Descriptive-Commentative Gap [0.5439020425819]
画像とソーシャルメディア投稿のコメントの相互作用は、その全体的なメッセージを理解する上で非常に重要である。
マルチモーダル埋め込みモデル、すなわちCLIPの最近の進歩は、画像とテキストの関連性において大きな進歩をもたらした。
CLIPモデルの現在のトレーニング体制は、サイトや言語に関わらず、ソーシャルメディア上のコンテンツにマッチするには不十分である。
画像テキストエンコーダを明示的なコメント対でトレーニングすると,検索結果が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-09-06T19:03:49Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - GAME-ON: Graph Attention Network based Multimodal Fusion for Fake News Detection [6.037721620350107]
我々は,マルチモーダルフェイクニュース検出のためのより堅牢なデータ表現を学習するための,グラフニューラルネットワークに基づくエンドツーエンドトレーニング可能なフレームワークであるGAME-ONを提案する。
当社のモデルはTwitter上で平均11%向上し、Weiboでは2.6%のマージンで競争力を維持する一方で、最も優れた最先端ベースラインよりも65%少ないパラメータを使用する。
論文 参考訳(メタデータ) (2022-02-25T03:27:37Z) - Misinformation Detection in Social Media Video Posts [0.4724825031148411]
ソーシャルメディアプラットフォームによるショートフォームビデオは、ソーシャルメディアプロバイダーにとって重要な課題となっている。
本研究では,ソーシャルメディア投稿における誤情報検出手法を開発し,ビデオやテキストなどのモダリティを活用する。
われわれはTwitterから16万の動画投稿を収集し、自己教師付き学習を活用して、共同視覚およびテキストデータの表現表現を学ぶ。
論文 参考訳(メタデータ) (2022-02-15T20:14:54Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Analysis of Social Media Data using Multimodal Deep Learning for
Disaster Response [6.8889797054846795]
本稿では,ソーシャルメディアデータのテキストと画像のモダリティを併用して,最先端のディープラーニング技術を用いて共同表現を学習することを提案する。
実世界の災害データセットの実験により、提案されたマルチモーダルアーキテクチャは、単一のモダリティを用いてトレーニングされたモデルよりも優れたパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-04-14T19:36:11Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。