論文の概要: @GrokSet: multi-party Human-LLM Interactions in Social Media
- arxiv url: http://arxiv.org/abs/2602.21236v1
- Date: Wed, 11 Feb 2026 12:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.67029
- Title: @GrokSet: multi-party Human-LLM Interactions in Social Media
- Title(参考訳): @GrokSet:ソーシャルメディアにおける多人数の人-LLMインタラクション
- Authors: Matteo Migliarini, Berat Ercevik, Oluwagbemike Olowe, Saira Fatima, Sarah Zhao, Minh Anh Le, Vasu Sharma, Ashwinee Panda,
- Abstract要約: 大規模言語モデル(LLM)は、公共のソーシャルメディアプラットフォーム上で活発な参加者として、ますます多くデプロイされている。
私たちは@GrokSetを紹介します。これは、X上の@Grok LLMを含む100万以上のツイートの大規模なデータセットです。
LLMは一般のアシスタントとして機能する代わりに、高い評価と政治的議論の分極化において権威的アービターとしてしばしば呼び出される。
- 参考スコア(独自算出の注目度): 6.836704021198838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as active participants on public social media platforms, yet their behavior in these unconstrained social environments remains largely unstudied. Existing datasets, drawn primarily from private chat interfaces, lack the multi-party dynamics and public visibility crucial for understanding real-world performance. To address this gap, we introduce @GrokSet, a large-scale dataset of over 1 million tweets involving the @Grok LLM on X. Our analysis reveals a distinct functional shift: rather than serving as a general assistant, the LLM is frequently invoked as an authoritative arbiter in high-stakes, polarizing political debates. However, we observe a persistent engagement gap: despite this visibility, the model functions as a low-status utility, receiving significantly less social validation (likes, replies) than human peers. Finally, we find that this adversarial context exposes shallow alignment: users bypass safety filters not through complex jailbreaks, but through simple persona adoption and tone mirroring. We release @GrokSet as a critical resource for studying the intersection of AI agents and societal discourse.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、公共のソーシャルメディアプラットフォーム上で活発な参加者としてますます多くデプロイされているが、これらの制約のない社会環境における彼らの行動はほとんど研究されていない。
既存のデータセットは、主にプライベートチャットインターフェイスから作成され、実世界のパフォーマンスを理解する上で不可欠なマルチパーティのダイナミクスと公開可視性が欠如している。
このギャップに対処するため、私たちは@GrokSetを紹介します。これは、@Grok LLM on Xを含む100万以上のツイートからなる大規模なデータセットです。我々の分析では、一般的なアシスタントとしてではなく、LLMは高評価のオービターとして頻繁に呼び出され、政治的議論を分極化しています。
しかし、この可視性にもかかわらず、モデルは低水準のユーティリティとして機能し、人間の仲間よりも社会的検証(いいね、返信)が著しく少ない。
ユーザは、複雑なジェイルブレイクではなく、単純なペルソナの採用やトーンミラーリングを通じて安全フィルタをバイパスする。
我々は、AIエージェントと社会談話の交わりを研究するための重要なリソースとして@GrokSetをリリースする。
関連論文リスト
- Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。
社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文 参考訳(メタデータ) (2026-02-27T13:37:11Z) - Grok in the Wild: Characterizing the Roles and Uses of Large Language Models on Social Media [5.844783557050257]
xAIの大規模言語モデルであるGrokは、ソーシャルメディアプラットフォームXで毎週何百万人もの人々に呼ばれている。
プラットフォームレベルでは、Grokが62%のリクエストに応答し、大多数(51%)が英語であり、エンゲージメントが低いことが分かりました。
また、LLMが社会的相互作用を媒介する10の役割の分類を誘導的に構築し、これらの役割を用いてGrok on Xの41,735の相互作用を分析する。
論文 参考訳(メタデータ) (2026-02-11T19:06:22Z) - From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection [57.74400052368147]
本稿では,幾何学的計画と文脈的社会的推論を統合した社会ロボットナビゲーションフレームワークを提案する。
このシステムはまず障害物や人間の力学を抽出し、幾何学的に実現可能な候補経路を生成し、次に細調整された視覚言語モデル(VLM)を利用してこれらの経路を評価する。
4つのソーシャルナビゲーション環境における実験により, 生活空間違反の最小期間, 歩行者面の最小時間, 社会ゾーンの侵入がない場合に, ベストな総合的なパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2026-02-09T18:46:12Z) - Persona Jailbreaking in Large Language Models [8.618075786777219]
大規模言語モデル(LLM)は、教育、メンタルヘルス、カスタマーサポートといった分野にますます導入されている。
ブラックボックスのペルソナ操作は未発見のままであり、現実的な相互作用における堅牢性への懸念を提起している。
ブラックボックスの推論専用設定の下でユーザ側の入力を通じてLDM特性を逆向きに操るペルソナ編集のタスクを導入する。
論文 参考訳(メタデータ) (2026-01-23T05:51:35Z) - HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - SoMe: A Realistic Benchmark for LLM-based Social Media Agents [64.05026384906915]
SoMeは、ソーシャルメディアデータにアクセスし分析するための様々なエージェントツールを備えたソーシャルメディアエージェントを評価するために設計されたベンチマークである。
SoMeは8つのソーシャルメディアエージェントタスク、9,164,284の投稿、6,591のユーザープロフィール、さまざまなソーシャルメディアプラットフォームや外部ウェブサイトからの25,686のレポートで構成されている。
定量的,質的な分析により,現実的なソーシャルメディア環境における主流エージェントLLMの性能について概観する。
論文 参考訳(メタデータ) (2025-12-09T08:36:09Z) - Can MLLMs Read the Room? A Multimodal Benchmark for Verifying Truthfulness in Multi-Party Social Interactions [21.974884890305365]
本稿では,ソーシャル推論ゲームWerewolfから派生した新しいデータセットを提案する。
このデータセットは、すべてのステートメントに対して、検証可能な基底構造ラベルを備えた同期ビデオ、テキストを提供する。
我々は最先端のMLLMを評価し,その性能差を明らかにした。
論文 参考訳(メタデータ) (2025-10-31T05:36:36Z) - SI-Bench: Benchmarking Social Intelligence of Large Language Models in Human-to-Human Conversations [8.453848538355508]
大規模言語モデル(LLM)における社会的知能の側面を評価するための新しいベンチマークであるSI-Benchを紹介する。
SI-Benchは幅広い社会科学理論に基づいており、ソーシャルネットワーキングアプリケーションから収集された2,221の真のマルチターン対話を含んでいる。
実験では、複雑な社会的状況下でのプロセス推論において、SOTAモデルが人間の専門家を上回る結果となったが、それでも回答の品質は人間に劣っている。
論文 参考訳(メタデータ) (2025-10-27T10:21:46Z) - SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。
SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。
また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文 参考訳(メタデータ) (2025-06-05T05:51:35Z) - Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。
GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文 参考訳(メタデータ) (2025-02-17T17:43:08Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。