Fugu-MT 論文翻訳(概要): MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms

論文の概要: MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms

arxiv url: http://arxiv.org/abs/2402.14154v1
Date: Wed, 21 Feb 2024 22:27:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 17:01:07.947430
Title: MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms
Title（参考訳）: MM-Soc:ソーシャルメディアプラットフォームにおけるマルチモーダル大言語モデルのベンチマーク
Authors: Yiqiao Jin, Minje Choi, Gaurav Verma, Jindong Wang, Srijan Kumar
Abstract要約: 本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。 MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。我々は,モデルの社会的理解能力の向上の必要性を浮き彫りにして,重要な性能格差を特定した。
参考スコア（独自算出の注目度）: 27.610607218826157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social media platforms are hubs for multimodal information exchange, encompassing text, images, and videos, making it challenging for machines to comprehend the information or emotions associated with interactions in online spaces. Multimodal Large Language Models (MLLMs) have emerged as a promising solution to address these challenges, yet struggle with accurately interpreting human emotions and complex contents like misinformation. This paper introduces MM-Soc, a comprehensive benchmark designed to evaluate MLLMs' understanding of multimodal social media content. MM-Soc compiles prominent multimodal datasets and incorporates a novel large-scale YouTube tagging dataset, targeting a range of tasks from misinformation detection, hate speech detection, and social context generation. Through our exhaustive evaluation on ten size-variants of four open-source MLLMs, we have identified significant performance disparities, highlighting the need for advancements in models' social understanding capabilities. Our analysis reveals that, in a zero-shot setting, various types of MLLMs generally exhibit difficulties in handling social media tasks. However, MLLMs demonstrate performance improvements post fine-tuning, suggesting potential pathways for improvement.
Abstract（参考訳）: ソーシャルメディアプラットフォームは、テキスト、画像、ビデオを含むマルチモーダルな情報交換のためのハブであり、マシンがオンライン空間におけるインタラクションに関連する情報や感情を理解することは困難である。 MLLM(Multimodal Large Language Models)は、これらの課題に対処するための有望なソリューションとして登場したが、人間の感情や誤報のような複雑な内容の正確な解釈に苦慮している。本稿では,マルチモーダルなソーシャルメディアコンテンツに対するMLLMの理解を評価するための総合ベンチマークであるMM-Socを紹介する。 MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、誤情報検出、ヘイトスピーチ検出、ソーシャルコンテキスト生成など、さまざまなタスクを対象とした、新しい大規模なYouTubeタグ付けデータセットを組み込んだ。オープンソースMLLMの10種類のサイズバリエーションを網羅的に評価した結果,性能の相違が明らかとなり,モデルの社会的理解能力の向上の必要性が浮き彫りになった。分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難であることがわかった。しかし、MLLMは微調整後の性能向上を示し、改善の道筋を示唆している。

関連論文リスト

SoMe: A Realistic Benchmark for LLM-based Social Media Agents [64.05026384906915]
SoMeは、ソーシャルメディアデータにアクセスし分析するための様々なエージェントツールを備えたソーシャルメディアエージェントを評価するために設計されたベンチマークである。 SoMeは8つのソーシャルメディアエージェントタスク、9,164,284の投稿、6,591のユーザープロフィール、さまざまなソーシャルメディアプラットフォームや外部ウェブサイトからの25,686のレポートで構成されている。定量的,質的な分析により,現実的なソーシャルメディア環境における主流エージェントLLMの性能について概観する。
論文参考訳（メタデータ） (2025-12-09T08:36:09Z)
Can MLLMs Read the Room? A Multimodal Benchmark for Assessing Deception in Multi-Party Social Interactions [26.074938251210842]
高度な推論能力にもかかわらず、最先端のマルチモーダル大言語モデル(MLLM)は明らかに人間の知能のコアコンポーネントを欠いている。新しいタスクであるMIDA(Multimodal Interactive Deception Assessment)を導入する。本論文では,各文に対して,テキストとビデオの同期化を実現する新しいマルチモーダルデータセットを提案する。
論文参考訳（メタデータ） (2025-11-20T10:44:21Z)
Empowering Multimodal LLMs with External Tools: A Comprehensive Survey [61.66069828956139]
MLLM(Multimodal Large Language Models)は、人工知能への有望な経路を指して、様々なマルチモーダルタスクにおいて大きな成功を収めた。マルチモーダルデータの欠如、複雑な下流タスクの性能の低下、不適切な評価プロトコルがMLLMの信頼性とより広範な適用性を妨げている。推論と問題解決の強化に外部ツールを活用する人間の能力にインスパイアされたMLLMを外部ツールで強化することは、これらの課題を克服するための有望な戦略を提供する。
論文参考訳（メタデータ） (2025-08-14T07:25:45Z)
Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning [23.089644598166885]
MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
論文参考訳（メタデータ） (2025-06-12T01:44:46Z)
SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。 SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文参考訳（メタデータ） (2025-06-05T05:51:35Z)
Towards Online Multi-Modal Social Interaction Understanding [36.37278022436327]
本稿では,記録された対話やビデオストリームなどの履歴情報のみを用いて,MMSIタスクをモデルが解決しなければならないオンラインMMSI設定を提案する。マルチパーティ会話予測とソーシャル・アウェア・ビジュアル・プロンプトという2つの補完的戦略を活用する新しいフレームワークである Online-MMSI-VLM を開発した。提案手法は最先端の性能を達成し,ベースラインモデルを大幅に上回り,オンラインMMSIにおける有効性を示す。
論文参考訳（メタデータ） (2025-03-25T17:17:19Z)
Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.03771340666549]
MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文参考訳（メタデータ） (2025-03-04T13:18:33Z)
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。本調査は,LLMの最近の進歩を概観する。
論文参考訳（メタデータ） (2024-12-04T11:14:06Z)
Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文参考訳（メタデータ） (2024-08-13T02:08:32Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文参考訳（メタデータ） (2024-07-23T03:58:08Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。 SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文参考訳（メタデータ） (2024-02-20T14:02:45Z)
ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文参考訳（メタデータ） (2024-01-12T06:28:54Z)
Beyond Text: Unveiling Multimodal Proficiency of Large Language Models with MultiAPI Benchmark [11.572835837392867]
この研究は、包括的な大規模APIベンチマークデータセットのパイオニアであるMultiAPIを紹介した。 235の多様なAPIコールと2,038のコンテキストプロンプトで構成されており、マルチモーダルタスクを扱うツール拡張LDMのユニークなプラットフォーム評価を提供する。 LLMはAPIコール決定の熟練度を示すが,ドメイン識別や関数選択,引数生成といった課題に直面している。
論文参考訳（メタデータ） (2023-11-21T23:26:05Z)
How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。 MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。適切なモダリティアライメント法を選択することは重要である。
論文参考訳（メタデータ） (2023-11-10T09:51:24Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。