論文の概要: LLMs Among Us: Generative AI Participating in Digital Discourse
- arxiv url: http://arxiv.org/abs/2402.07940v1
- Date: Thu, 8 Feb 2024 19:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 13:29:40.986887
- Title: LLMs Among Us: Generative AI Participating in Digital Discourse
- Title(参考訳): LLM: デジタル談話に参加するジェネレーティブAI
- Authors: Kristina Radivojevic, Nicholas Clark, Paul Brenner
- Abstract要約: LLMs among Us」は、ボットと人間の参加者が、ボットと人間の参加者の比率や性質を知らずにコミュニケーションする実験的な枠組みである。
実験を3ラウンド実施し,各ラウンド後の参加者を調査し,人間の検出を伴わずにLLMが人体として振る舞う能力を測定した。
実験では,ボットと人間の両方の存在を知りながら,被験者が他のユーザの性質を正しく識別できたのは42%に過ぎなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of Large Language Models (LLMs) has great potential to reshape
the landscape of many social media platforms. While this can bring promising
opportunities, it also raises many threats, such as biases and privacy
concerns, and may contribute to the spread of propaganda by malicious actors.
We developed the "LLMs Among Us" experimental framework on top of the Mastodon
social media platform for bot and human participants to communicate without
knowing the ratio or nature of bot and human participants. We built 10 personas
with three different LLMs, GPT-4, LLama 2 Chat, and Claude. We conducted three
rounds of the experiment and surveyed participants after each round to measure
the ability of LLMs to pose as human participants without human detection. We
found that participants correctly identified the nature of other users in the
experiment only 42% of the time despite knowing the presence of both bots and
humans. We also found that the choice of persona had substantially more impact
on human perception than the choice of mainstream LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、多くのソーシャルメディアプラットフォームの景観を再構築する大きな可能性を秘めている。
これは有望な機会をもたらす可能性があるが、バイアスやプライバシーの懸念など多くの脅威を引き起こし、悪意のある俳優によるプロパガンダの普及に寄与する可能性がある。
我々は、ボットと人間の参加者がボットと人間の参加者の比率や性質を知らずにコミュニケーションするための、Mastodonソーシャルメディアプラットフォーム上に「LLMs among Us」実験フレームワークを開発した。
私たちは3つの異なるLCM、GPT-4、LLama 2 Chat、Claudeで10のペルソナを構築しました。
実験を3ラウンド実施し,各ラウンド後の参加者を調査し,人間の検出を伴わずに人体として行動するLLMの能力を測定した。
実験では,ボットと人間の両方の存在を知りながら,被験者が他のユーザの性質を正しく識別できたのは42%に過ぎなかった。
また,パーソナの選択は,メインストリームLLMの選択よりも人間の知覚に大きく影響した。
関連論文リスト
- How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial [10.770999939834985]
制御された無害な環境でAIによる説得の効果を分析する。
その結果、GPT-4を個人情報へのアクセスで議論した参加者は、人間を議論した参加者と比較して、相手との合意が増大する確率が81.7%高かった。
論文 参考訳(メタデータ) (2024-03-21T13:14:40Z) - Are Large Language Models Aligned with People's Social Intuitions for
Human-Robot Interactions? [7.983988656380409]
大規模言語モデル(LLM)は、ロボット工学、特にハイレベルな行動計画にますます使われている。
本研究では,人間とロボットの相互作用のシナリオにおいて,LLMが人々の直感やコミュニケーションを再現するかどうかを検証する。
視覚モデルでは映像刺激の本質を捉えることができず、LLMは人よりもコミュニケーション行動や行動を評価する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-03-08T22:23:23Z) - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - Limits of Large Language Models in Debating Humans [0.0]
大きな言語モデル(LLM)は、人間と熟達して対話する能力において顕著な可能性を示してきた。
本論文は,LLMエージェントを現実の人間と組み合わせた事前登録研究により,現在のLLMの限界を検証しようとする試みである。
論文 参考訳(メタデータ) (2024-02-06T03:24:27Z) - Large language models cannot replace human participants because they
cannot portray identity groups [40.865099955752825]
我々は,大きな言語モデル (LLM) は,人口集団の表現の誤りとフラット化の両方を負うと論じている。
アイデンティティーがアイデンティティーを不可欠なものにする方法について、第3の考察について論じる。
全体としては、LLMが課題に関連のある人物を置き換えることを意図したユースケースに注意を喚起する。
論文 参考訳(メタデータ) (2024-02-02T21:21:06Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.53559226972413]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。
一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。
その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (2023-04-11T16:53:54Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。