Fugu-MT 論文翻訳(概要): N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space

論文の概要: N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space

arxiv url: http://arxiv.org/abs/2403.12747v1
Date: Mon, 18 Mar 2024 15:48:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 14:03:58.991609
Title: N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space
Title（参考訳）: N-Modal Contrastive LossesとTrimodal空間におけるソーシャルメディアデータへの応用
Authors: William Theisen, Walter Scheirer,
Abstract要約: コンフリクトダイナミクスのソーシャルメディアの展望は、ますますマルチモーダル化している。 CLIPのようなモデルアーキテクチャの最近の進歩により、研究者はテキストのモダリティと画像の共有潜在空間における相互作用を研究することができるようになった。本稿では,任意のモダリティを許容するコントラッシブ・ロス関数の拡張について検討し,ソーシャルメディア上でのトリモーダル・スペースにおけるその有用性を示す。新たに収集したTelegramポストの公開データセットを使って,3つのモダリティすべてをトレーニングし,その有用性を2つのOSINTシナリオで示す。
参考スコア（独自算出の注目度）: 0.46040036610482665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The social media landscape of conflict dynamics has grown increasingly multi-modal. Recent advancements in model architectures such as CLIP have enabled researchers to begin studying the interplay between the modalities of text and images in a shared latent space. However, CLIP models fail to handle situations on social media when modalities present in a post expand above two. Social media dynamics often require understanding the interplay between not only text and images, but video as well. In this paper we explore an extension of the contrastive loss function to allow for any number of modalities, and demonstrate its usefulness in trimodal spaces on social media. By extending CLIP into three dimensions we can further aide understanding social media landscapes where all three modalities are present (an increasingly common situation). We use a newly collected public data set of Telegram posts containing all three modalities to train, and then demonstrate the usefulness of, a trimodal model in two OSINT scenarios: classifying a social media artifact post as either pro-Russian or pro-Ukrainian and identifying which account a given artifact originated from. While trimodal CLIP models have been explored before (though not on social media data), we also display a novel quadmodal CLIP model. This model can learn the interplay between text, image, video, and audio. We demonstrate new state-of-the-art baseline results on retrieval for quadmodel models moving forward.
Abstract（参考訳）: コンフリクトダイナミクスのソーシャルメディアの展望は、ますますマルチモーダル化している。 CLIPのようなモデルアーキテクチャの最近の進歩により、研究者はテキストのモダリティと画像の共有潜在空間における相互作用を研究することができるようになった。しかし、CLIPモデルでは、投稿中のモダリティが2つを超えると、ソーシャルメディア上の状況に対処できない。ソーシャルメディアのダイナミクスは、テキストと画像の相互作用を理解するだけでなく、ビデオも理解する必要があることが多い。本稿では,任意のモダリティを許容するコントラッシブ・ロス関数の拡張について検討し,ソーシャルメディア上でのトリモーダル・スペースにおけるその有用性を示す。 CLIPを3次元に拡張することで、3つのモダリティがすべて存在するソーシャルメディアの風景(より一般的な状況)の理解をさらに助長することができる。我々は、新たに収集された3つのモダリティを含むTelegramポストの公開データセットを使用して、2つのOSINTシナリオにおけるトリモーダルモデルの有用性を実証する。トリモーダルCLIPモデルはこれまで検討されてきたが(ソーシャルメディアデータにはないが)、新しいクアッドモーダルCLIPモデルも提示する。このモデルは、テキスト、画像、ビデオ、オーディオ間の相互作用を学ぶことができる。クアッドモデルモデルに対する検索における最新技術ベースラインの新たな結果を示す。

関連論文リスト

HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction [16.78634288864967]
ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
論文参考訳（メタデータ） (2025-07-01T16:31:50Z)
Towards Online Multi-Modal Social Interaction Understanding [36.37278022436327]
本稿では,記録された対話やビデオストリームなどの履歴情報のみを用いて,MMSIタスクをモデルが解決しなければならないオンラインMMSI設定を提案する。マルチパーティ会話予測とソーシャル・アウェア・ビジュアル・プロンプトという2つの補完的戦略を活用する新しいフレームワークである Online-MMSI-VLM を開発した。提案手法は最先端の性能を達成し,ベースラインモデルを大幅に上回り,オンラインMMSIにおける有効性を示す。
論文参考訳（メタデータ） (2025-03-25T17:17:19Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。 2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文参考訳（メタデータ） (2024-03-12T10:04:08Z)
C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap [0.5439020425819]
画像とソーシャルメディア投稿のコメントの相互作用は、その全体的なメッセージを理解する上で非常に重要である。マルチモーダル埋め込みモデル、すなわちCLIPの最近の進歩は、画像とテキストの関連性において大きな進歩をもたらした。 CLIPモデルの現在のトレーニング体制は、サイトや言語に関わらず、ソーシャルメディア上のコンテンツにマッチするには不十分である。画像テキストエンコーダを明示的なコメント対でトレーニングすると,検索結果が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-09-06T19:03:49Z)
UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文参考訳（メタデータ） (2023-08-21T22:15:20Z)
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。 3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文参考訳（メタデータ） (2022-10-26T21:01:19Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
GAME-ON: Graph Attention Network based Multimodal Fusion for Fake News Detection [6.037721620350107]
我々は,マルチモーダルフェイクニュース検出のためのより堅牢なデータ表現を学習するための,グラフニューラルネットワークに基づくエンドツーエンドトレーニング可能なフレームワークであるGAME-ONを提案する。当社のモデルはTwitter上で平均11%向上し、Weiboでは2.6%のマージンで競争力を維持する一方で、最も優れた最先端ベースラインよりも65%少ないパラメータを使用する。
論文参考訳（メタデータ） (2022-02-25T03:27:37Z)
Misinformation Detection in Social Media Video Posts [0.4724825031148411]
ソーシャルメディアプラットフォームによるショートフォームビデオは、ソーシャルメディアプロバイダーにとって重要な課題となっている。本研究では,ソーシャルメディア投稿における誤情報検出手法を開発し,ビデオやテキストなどのモダリティを活用する。われわれはTwitterから16万の動画投稿を収集し、自己教師付き学習を活用して、共同視覚およびテキストデータの表現表現を学ぶ。
論文参考訳（メタデータ） (2022-02-15T20:14:54Z)
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-11-03T08:44:18Z)
Analysis of Social Media Data using Multimodal Deep Learning for Disaster Response [6.8889797054846795]
本稿では,ソーシャルメディアデータのテキストと画像のモダリティを併用して,最先端のディープラーニング技術を用いて共同表現を学習することを提案する。実世界の災害データセットの実験により、提案されたマルチモーダルアーキテクチャは、単一のモダリティを用いてトレーニングされたモデルよりも優れたパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2020-04-14T19:36:11Z)
Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文参考訳（メタデータ） (2020-01-17T14:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。