論文の概要: SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services
- arxiv url: http://arxiv.org/abs/2505.23065v1
- Date: Thu, 29 May 2025 04:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.670737
- Title: SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services
- Title(参考訳): SNS-Bench-VL:ソーシャルネットワークサービスにおけるマルチモーダル大言語モデルのベンチマーク
- Authors: Hongcheng Guo, Zheyong Xie, Shaosheng Cao, Boyang Wang, Weiting Liu, Anjie Le, Lei Li, Zhoujun Li,
- Abstract要約: SNS-Bench-VLは、現実のソーシャルメディアシナリオにおけるビジョンランゲージLLMの性能を評価するために設計された総合的なベンチマークである。
4001個の慎重にキュレートされた複数モーダル質問応答ペアで構成され、単一の選択、複数選択、オープンなタスクをカバーしている。
タスク間の性能を解析し,25以上の最先端マルチモーダルLCMを評価した。
- 参考スコア(独自算出の注目度): 23.149994082146698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing integration of visual and textual content in Social Networking Services (SNS), evaluating the multimodal capabilities of Large Language Models (LLMs) is crucial for enhancing user experience, content understanding, and platform intelligence. Existing benchmarks primarily focus on text-centric tasks, lacking coverage of the multimodal contexts prevalent in modern SNS ecosystems. In this paper, we introduce SNS-Bench-VL, a comprehensive multimodal benchmark designed to assess the performance of Vision-Language LLMs in real-world social media scenarios. SNS-Bench-VL incorporates images and text across 8 multimodal tasks, including note comprehension, user engagement analysis, information retrieval, and personalized recommendation. It comprises 4,001 carefully curated multimodal question-answer pairs, covering single-choice, multiple-choice, and open-ended tasks. We evaluate over 25 state-of-the-art multimodal LLMs, analyzing their performance across tasks. Our findings highlight persistent challenges in multimodal social context comprehension. We hope SNS-Bench-VL will inspire future research towards robust, context-aware, and human-aligned multimodal intelligence for next-generation social networking services.
- Abstract(参考訳): SNS(Social Networking Services)における視覚的・テキスト的コンテンツの統合が進み,ユーザエクスペリエンス,コンテンツ理解,プラットフォームインテリジェンスを高める上で,LLM(Large Language Models)のマルチモーダル機能の評価が重要である。
既存のベンチマークは主にテキスト中心のタスクに重点を置いており、現代のSNSエコシステムで広く使われているマルチモーダルコンテキストをカバーしていない。
本稿では,現実のソーシャルメディアシナリオにおけるビジョンランゲージLLMの性能を評価するための総合的マルチモーダルベンチマークであるSNS-Bench-VLを紹介する。
SNS-Bench-VLは、ノート理解、ユーザエンゲージメント分析、情報検索、パーソナライズされたレコメンデーションを含む8つのマルチモーダルタスクにイメージとテキストを組み込んでいる。
4001個の慎重にキュレートされた複数モーダル質問応答ペアで構成され、単一の選択、複数選択、オープンなタスクをカバーしている。
タスク間の性能を解析し,25以上の最先端マルチモーダルLCMを評価した。
本研究は,マルチモーダルな社会的文脈理解における永続的な課題を浮き彫りにした。
SNS-Bench-VLは、次世代ソーシャルネットワークサービスのための、堅牢で、コンテキスト対応で、人間と協調したマルチモーダルインテリジェンスに向けた将来の研究を刺激することを期待している。
関連論文リスト
- VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms [25.73585435351771]
本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。
MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。
分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T22:27:40Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。