論文の概要: The Collective Turing Test: Large Language Models Can Generate Realistic Multi-User Discussions
- arxiv url: http://arxiv.org/abs/2511.08592v1
- Date: Wed, 29 Oct 2025 17:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.060153
- Title: The Collective Turing Test: Large Language Models Can Generate Realistic Multi-User Discussions
- Title(参考訳): 集合的チューリングテスト:大規模言語モデルが現実的なマルチユーザディスカッションを生成できる
- Authors: Azza Bouleimen, Giordano De Marzo, Taehee Kim, Nicol`o Pagan, Hannah Metzler, Silvia Giordano, David Garcia,
- Abstract要約: 大規模言語モデル(LLM)は、オンラインコミュニティやソーシャルメディアをシミュレートするための新しい道を提供する。
LLMがソーシャルメディア上でのヒューマングループ会話を効果的に模倣できるかどうかを評価した。
- 参考スコア(独自算出の注目度): 0.4605116997238364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) offer new avenues to simulate online communities and social media. Potential applications range from testing the design of content recommendation algorithms to estimating the effects of content policies and interventions. However, the validity of using LLMs to simulate conversations between various users remains largely untested. We evaluated whether LLMs can convincingly mimic human group conversations on social media. We collected authentic human conversations from Reddit and generated artificial conversations on the same topic with two LLMs: Llama 3 70B and GPT-4o. When presented side-by-side to study participants, LLM-generated conversations were mistaken for human-created content 39\% of the time. In particular, when evaluating conversations generated by Llama 3, participants correctly identified them as AI-generated only 56\% of the time, barely better than random chance. Our study demonstrates that LLMs can generate social media conversations sufficiently realistic to deceive humans when reading them, highlighting both a promising potential for social simulation and a warning message about the potential misuse of LLMs to generate new inauthentic social media content.
- Abstract(参考訳): 大規模言語モデル(LLM)は、オンラインコミュニティやソーシャルメディアをシミュレートするための新しい道を提供する。
潜在的なアプリケーションは、コンテンツレコメンデーションアルゴリズムの設計をテストすることから、コンテンツポリシーと介入の効果を推定することまで様々である。
しかし、様々なユーザ間の会話をシミュレートするためにLLMを使うことの妥当性はほとんど検証されていない。
LLMがソーシャルメディア上でのヒューマングループ会話を効果的に模倣できるかどうかを評価した。
Llama 3 70B と GPT-4o の2つの LLM を用いて,Reddit から真正の人間会話を収集し,同じ話題に人工会話を発生させた。
参加者に並べて提示すると, LLM生成会話は39%の時間で人との会話を間違えた。
特に、Llama 3で生成された会話を評価する場合、参加者はAIが生成した会話の56倍の確率で、ランダムな確率よりわずかに優れていると正しく認識した。
本研究は, LLMが人間を騙すようなソーシャルメディアの会話を十分に現実的に生成できることを示し, 社会シミュレーションの有望な可能性と, LLMの誤用を警告するメッセージの両方を強調した。
関連論文リスト
- Promoting Online Safety by Simulating Unsafe Conversations with LLMs [1.7243216387069678]
大規模言語モデル(LLM)は、オンラインにおける安全でない会話のスピード、スケール、タイプを向上する可能性があり、すでに使用されている。
本稿では,LLMを使わずともオンラインで起こりうる,安全でない会話を人々に教えることによって,オンラインの安全性を促進する方法について検討する。
論文 参考訳(メタデータ) (2025-07-29T22:38:21Z) - Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。
GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文 参考訳(メタデータ) (2025-02-17T17:43:08Z) - GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing [73.8469700907927]
大規模言語モデル(LLM)は、指示の追従や質問応答といった人間の指導による会話に成功している。
本研究では, LLM誘導会話を, ゴールナビゲーション, (ii) コンテキストマネジメント, (iii) 共感エンゲージメントの3つの基本要素に分類した。
GPT-4o や Llama-3-70b-Instruct のような6つの最先端 LLM と比較し, 面接品質, 自伝生成品質の観点から検討した。
論文 参考訳(メタデータ) (2025-02-10T14:11:32Z) - NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。
シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文 参考訳(メタデータ) (2024-09-12T18:00:18Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。