論文の概要: On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial
- arxiv url: http://arxiv.org/abs/2403.14380v1
- Date: Thu, 21 Mar 2024 13:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:18:45.486697
- Title: On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial
- Title(参考訳): 大規模言語モデルの会話的説得性について:ランダム化制御試験
- Authors: Francesco Salvi, Manoel Horta Ribeiro, Riccardo Gallotti, Robert West,
- Abstract要約: 制御された無害な環境でAIによる説得の効果を分析する。
その結果、GPT-4を個人情報へのアクセスで議論した参加者は、人間を議論した参加者と比較して、相手との合意が増大する確率が81.7%高かった。
- 参考スコア(独自算出の注目度): 10.770999939834985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development and popularization of large language models (LLMs) have raised concerns that they will be used to create tailor-made, convincing arguments to push false or misleading narratives online. Early work has found that language models can generate content perceived as at least on par and often more persuasive than human-written messages. However, there is still limited knowledge about LLMs' persuasive capabilities in direct conversations with human counterparts and how personalization can improve their performance. In this pre-registered study, we analyze the effect of AI-driven persuasion in a controlled, harmless setting. We create a web-based platform where participants engage in short, multiple-round debates with a live opponent. Each participant is randomly assigned to one of four treatment conditions, corresponding to a two-by-two factorial design: (1) Games are either played between two humans or between a human and an LLM; (2) Personalization might or might not be enabled, granting one of the two players access to basic sociodemographic information about their opponent. We found that participants who debated GPT-4 with access to their personal information had 81.7% (p < 0.01; N=820 unique participants) higher odds of increased agreement with their opponents compared to participants who debated humans. Without personalization, GPT-4 still outperforms humans, but the effect is lower and statistically non-significant (p=0.31). Overall, our results suggest that concerns around personalization are meaningful and have important implications for the governance of social media and the design of new online environments.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発と普及は、オンライン上で偽りや誤解を招く物語をプッシュするために、テーラーメイドで説得力のある議論を作るのに使用されるのではないかという懸念を提起している。
初期の研究で、言語モデルは少なくとも同程度に認識されたコンテンツを生成し、人間によるメッセージよりも説得力が高いことが判明した。
しかし、人間との直接会話におけるLLMの説得能力や、パーソナライズによってパフォーマンスが向上する方法についてはまだ知識が限られている。
この事前登録された研究では、制御された無害な環境でAIによる説得の効果を分析する。
私たちはWebベースのプラットフォームを作り、参加者はライブの相手と短時間で複数ラウンドの議論を行う。
各参加者はランダムに4つの治療条件のうちの1つに割り当てられ、(1)ゲームは2人または1人の人間と1人のLDMの間で行われ、(2)パーソナライゼーションは有効であるかもしれないし、その2人のプレイヤーのうちの1人が相手に関する基本的な社会学的な情報にアクセスできるようにする。
その結果、GPT-4を個人情報へのアクセスで議論した参加者は81.7%(p < 0.01; N=820)であり、反対者との合意が高まる確率は人間よりも高かった。
パーソナライゼーションがなければ、GPT-4は人間より優れているが、その効果は低く統計的に非有意である(p=0.31)。
以上の結果から,パーソナライズに関する懸念がソーシャルメディアのガバナンスや新しいオンライン環境の設計に重要な意味を持っていることが示唆された。
関連論文リスト
- The PRISM Alignment Project: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models [67.38144169029617]
PRISMは,75か国から1500人の多様な参加者を対象に,社会デマトグラフィーをマッピングし,嗜好を提示する新しいデータセットである。
PRISMは、(i)ヒトのフィードバックデータにおける地理的および人口統計学的関与、(ii)集団福祉(UKとUS)を理解するための2つの国勢調査表現サンプル、(iii)全ての評価が詳細な参加者プロファイルに関連付けられている個別化されたフィードバックに寄与する。
論文 参考訳(メタデータ) (2024-04-24T17:51:36Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - LLMs Among Us: Generative AI Participating in Digital Discourse [0.0]
LLMs among Us」は、ボットと人間の参加者が、ボットと人間の参加者の比率や性質を知らずにコミュニケーションする実験的な枠組みである。
実験を3ラウンド実施し,各ラウンド後の参加者を調査し,人間の検出を伴わずにLLMが人体として振る舞う能力を測定した。
実験では,ボットと人間の両方の存在を知りながら,被験者が他のユーザの性質を正しく識別できたのは42%に過ぎなかった。
論文 参考訳(メタデータ) (2024-02-08T19:21:33Z) - Can ChatGPT Read Who You Are? [9.694940903078656]
チェコ語で書かれたテキストを代表とする総合的なユーザスタディの結果を155人のサンプルで報告した。
本研究は,ChatGPTによる性格特性推定と人間による評価とを比較し,テキストから人格特性を推定する際のChatGPTの競争性能を報告する。
論文 参考訳(メタデータ) (2023-12-26T14:43:04Z) - Comparing Large Language Model AI and Human-Generated Coaching Messages
for Behavioral Weight Loss [5.824523259910306]
大規模言語モデル(LLM)ベースの人工知能(AI)チャットボットは、よりパーソナライズされた新しいメッセージを提供することができる。
重量挙げ試験では87人の成人が、5ポイントのQuatスケールを使用して10のコーチングメッセージの役に立つと評価した。
論文 参考訳(メタデータ) (2023-12-07T05:45:24Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - Large Language Models Can Infer Psychological Dispositions of Social
Media Users [1.2277343096128712]
本研究では,デジタルフットプリントから個人の心理的沈着を推定する大規模言語モデルの可能性について検討した。
ゼロショット学習シナリオにおいて,GPT-3.5とGPT-4がユーザのFacebookステータス更新からビッグファイブの特徴を引き出す能力を評価する。
以上の結果から,性別や年齢に対する性格推定の偏りが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Do Large Language Models Show Decision Heuristics Similar to Humans? A
Case Study Using GPT-3.5 [0.0]
GPT-3.5は、ChatGPTと呼ばれる会話エージェントをサポートするLLMの例である。
本研究では,ChatGPTがバイアスを示すか,その他の決定効果を示すかを決定するために,一連の新しいプロンプトを用いた。
また、同じプロンプトをヒトでもテストしました。
論文 参考訳(メタデータ) (2023-05-08T01:02:52Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - Partner Matters! An Empirical Study on Fusing Personas for Personalized
Response Selection in Retrieval-Based Chatbots [51.091235903442715]
本稿では,自己とパートナーの話者が応答選択の課題に与える影響について検討する。
4つのペルソナ融合戦略が設計されており、異なる方法でペルソナがコンテキストや応答と相互作用することを前提としている。
Persona-Chatデータセットに関する実証研究は、パートナーペルソナが応答選択の精度を向上させることができることを示している。
論文 参考訳(メタデータ) (2021-05-19T10:32:30Z) - M2P2: Multimodal Persuasion Prediction using Adaptive Fusion [65.04045695380333]
本稿では,ディベートアウトカム予測 (DOP) 問題において,誰が討論に勝つかを予測し,IPP (Intensity of Persuasion Prediction) 問題では,講演者の発言前後の投票数の変化を予測する。
我々のM2P2フレームワークはIPP問題を解決するためにマルチモーダル(音響、視覚、言語)データを使用した最初のフレームワークです。
論文 参考訳(メタデータ) (2020-06-03T18:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。