論文の概要: SoMe: A Realistic Benchmark for LLM-based Social Media Agents
- arxiv url: http://arxiv.org/abs/2512.14720v1
- Date: Tue, 09 Dec 2025 08:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.68802
- Title: SoMe: A Realistic Benchmark for LLM-based Social Media Agents
- Title(参考訳): SoMe: LLMベースのソーシャルメディアエージェントのリアルベンチマーク
- Authors: Dizhan Xue, Jing Cui, Shengsheng Qian, Chuanrui Hu, Changsheng Xu,
- Abstract要約: SoMeは、ソーシャルメディアデータにアクセスし分析するための様々なエージェントツールを備えたソーシャルメディアエージェントを評価するために設計されたベンチマークである。
SoMeは8つのソーシャルメディアエージェントタスク、9,164,284の投稿、6,591のユーザープロフィール、さまざまなソーシャルメディアプラットフォームや外部ウェブサイトからの25,686のレポートで構成されている。
定量的,質的な分析により,現実的なソーシャルメディア環境における主流エージェントLLMの性能について概観する。
- 参考スコア(独自算出の注目度): 64.05026384906915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent agents powered by large language models (LLMs) have recently demonstrated impressive capabilities and gained increasing popularity on social media platforms. While LLM agents are reshaping the ecology of social media, there exists a current gap in conducting a comprehensive evaluation of their ability to comprehend media content, understand user behaviors, and make intricate decisions. To address this challenge, we introduce SoMe, a pioneering benchmark designed to evaluate social media agents equipped with various agent tools for accessing and analyzing social media data. SoMe comprises a diverse collection of 8 social media agent tasks, 9,164,284 posts, 6,591 user profiles, and 25,686 reports from various social media platforms and external websites, with 17,869 meticulously annotated task queries. Compared with the existing datasets and benchmarks for social media tasks, SoMe is the first to provide a versatile and realistic platform for LLM-based social media agents to handle diverse social media tasks. By extensive quantitative and qualitative analysis, we provide the first overview insight into the performance of mainstream agentic LLMs in realistic social media environments and identify several limitations. Our evaluation reveals that both the current closed-source and open-source LLMs cannot handle social media agent tasks satisfactorily. SoMe provides a challenging yet meaningful testbed for future social media agents. Our code and data are available at https://github.com/LivXue/SoMe
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したインテリジェントエージェントは、最近、目覚ましい能力を示し、ソーシャルメディアプラットフォームで人気を博している。
LLMエージェントは、ソーシャルメディアのエコロジーを再構築する一方で、メディアコンテンツを理解し、ユーザの振る舞いを理解し、複雑な意思決定を行う能力の包括的な評価を行う上で、現在のギャップが存在する。
この課題に対処するために,ソーシャルメディアデータへのアクセスと分析を行うさまざまなエージェントツールを備えたソーシャルメディアエージェントを評価するための先駆的ベンチマークであるSoMeを紹介する。
SoMeには8つのソーシャルメディアエージェントタスク、9,164,284の投稿、6,591のユーザープロフィール、さまざまなソーシャルメディアプラットフォームや外部ウェブサイトからの25,686のレポートがあり、17,869の微妙な注釈付きタスククエリがある。
ソーシャルメディアタスクの既存のデータセットやベンチマークと比較すると、SoMeはLLMベースのソーシャルメディアエージェントが多様なソーシャルメディアタスクを処理するための、汎用的で現実的なプラットフォームを初めて提供する。
定量的,定性的な分析により,現実的なソーシャルメディア環境における主要なエージェントLLMの性能について概観し,いくつかの制約を識別する。
評価の結果,現在のオープンソース LLM とオープンソース LLM は,ソーシャルメディアエージェントのタスクを良好に扱えないことが明らかとなった。
SoMeは、未来のソーシャルメディアエージェントにとって、挑戦的で有意義なテストベッドを提供する。
私たちのコードとデータはhttps://github.com/LivXue/SoMeで公開されています。
関連論文リスト
- Web-Browsing LLMs Can Access Social Media Profiles and Infer User Demographics [7.849709311008473]
大規模言語モデル(LLM)は伝統的に静的トレーニングデータに依存しており、その知識を固定スナップショットに制限している。
近年のLLMはウェブ閲覧機能を備えており、リアルタイム情報検索やライブウェブコンテンツの多段階推論が可能になっている。
本稿では,ウェブブラウジング LLM がユーザ名のみを付与したソーシャルメディア利用者の人口統計特性を推測できるかどうかを評価する。
これらのモデルがソーシャルメディアのコンテンツにアクセスでき、適切な精度でユーザー人口を予測できることを示す。
論文 参考訳(メタデータ) (2025-07-16T16:21:01Z) - Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。
GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文 参考訳(メタデータ) (2025-02-17T17:43:08Z) - OASIS: Open Agent Social Interaction Simulations with One Million Agents [147.00696959981173]
実世界のソーシャルメディアプラットフォームに基づくスケーラブルなソーシャルメディアシミュレータを提案する。
OASISは最大100万人のユーザをモデリングできる大規模なユーザシミュレーションをサポートする。
我々は、情報拡散、グループ分極、XプラットフォームとRedditプラットフォーム間の群れ効果など、様々な社会現象を再現する。
論文 参考訳(メタデータ) (2024-11-18T13:57:35Z) - MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms [25.73585435351771]
本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。
MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。
分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T22:27:40Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。