論文の概要: How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO
- arxiv url: http://arxiv.org/abs/2404.13957v1
- Date: Mon, 22 Apr 2024 08:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:55:25.804272
- Title: How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO
- Title(参考訳): LLMはいかにしてEchoを使えるか?ECHOによるAIチャットボットのロールプレイ能力の評価
- Authors: Man Tik Ng, Hui Tung Tse, Jen-tse Huang, Jingjing Li, Wenxuan Wang, Michael R. Lyu,
- Abstract要約: チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
- 参考スコア(独自算出の注目度): 55.25989137825992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The role-play ability of Large Language Models (LLMs) has emerged as a popular research direction. However, existing studies focus on imitating well-known public figures or fictional characters, overlooking the potential for simulating ordinary individuals. Such an oversight limits the potential for advancements in digital human clones and non-player characters in video games. To bridge this gap, we introduce ECHO, an evaluative framework inspired by the Turing test. This framework engages the acquaintances of the target individuals to distinguish between human and machine-generated responses. Notably, our framework focuses on emulating average individuals rather than historical or fictional figures, presenting a unique advantage to apply the Turing Test. We evaluated three role-playing LLMs using ECHO, with GPT-3.5 and GPT-4 serving as foundational models, alongside the online application GPTs from OpenAI. Our results demonstrate that GPT-4 more effectively deceives human evaluators, and GPTs achieves a leading success rate of 48.3%. Furthermore, we investigated whether LLMs could discern between human-generated and machine-generated texts. While GPT-4 can identify differences, it could not determine which texts were human-produced. Our code and results of reproducing the role-playing LLMs are made publicly available via https://github.com/CUHK-ARISE/ECHO.
- Abstract(参考訳): LLM(Large Language Models)のロールプレイ能力は、一般的な研究の方向性として現れている。
しかし、現存する研究は、一般市民をシミュレートする可能性を見越して、著名人や架空の人物を模倣することに焦点を当てている。
このような監視は、ビデオゲームにおけるデジタル人間クローンやノンプレイヤーキャラクターの進歩の可能性を制限している。
このギャップを埋めるために、チューリングテストに触発された評価フレームワークECHOを紹介します。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
特に、我々のフレームワークは、歴史や架空の人物ではなく、平均的な個人をエミュレートすることに焦点を当てており、チューリングテストを適用する上でユニークな利点を示している。
GPT-3.5 と GPT-4 の3つのロールプレイング LLM を基盤モデルとして,OpenAI のオンラインアプリケーション GPT とともに評価した。
以上の結果から, GPT-4はヒト評価因子をより効果的に欺き, GPTは48.3%の成功率を達成した。
さらに,LLMが人間生成テキストと機械生成テキストを区別できるかどうかを検討した。
GPT-4は違いを識別できるが、どのテキストが人為的に生成されているかは特定できなかった。
ロールプレイング LLM を再現したコードと結果は https://github.com/CUHK-ARISE/ECHO で公開されている。
関連論文リスト
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - AI AI Bias: Large Language Models Favor Their Own Generated Content [0.1979158763744267]
大規模言語モデル (LLM) が人間によって書かれたテキストに対して LLM によって生成されたテキストに偏りがあるかどうかを検証する。
以上の結果から,LLMベースのAIがLLM生成コンテンツを好む傾向が一貫したことが明らかとなった。
これは、AIシステムが暗黙的に人間を差別し、AIエージェントに不公平な優位性を与える可能性を示唆している。
論文 参考訳(メタデータ) (2024-07-09T13:15:14Z) - Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data [58.92110996840019]
本稿では、パーソナリティを指標としたデータを用いて、ロールプレイング言語モデル(RPLM)を強化することを提案する。
具体的には、心理学的尺度からの質問を活用し、高度なRPAを蒸留し、文字の心を把握した対話を生成する。
実験により,本データセットを用いてトレーニングしたRPLMは,一般人格関連評価と人格関連評価の両面において,高度なロールプレイング能力を示した。
論文 参考訳(メタデータ) (2024-06-27T06:24:00Z) - People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。
結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-05-09T04:14:09Z) - Are Large Language Models Aligned with People's Social Intuitions for Human-Robot Interactions? [7.308479353736709]
大規模言語モデル(LLM)は、ロボット工学、特にハイレベルな行動計画にますます使われている。
本研究では,人間とロボットの相互作用のシナリオにおいて,LLMが人々の直感やコミュニケーションを再現するかどうかを検証する。
視覚モデルでは映像刺激の本質を捉えることができず、LLMは人よりもコミュニケーション行動や行動を評価する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-03-08T22:23:23Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。
本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文 参考訳(メタデータ) (2023-10-16T07:58:56Z) - Large Language Models Can Infer Psychological Dispositions of Social Media Users [1.0923877073891446]
GPT-3.5とGPT-4は、ゼロショット学習シナリオにおいて、ユーザのFacebookステータス更新からビッグファイブの性格特性を導出できるかどうかを検証する。
その結果, LLM-inferred と self-reported trait score の間には r =.29 (range = [.22,.33]) の相関が認められた。
予測は、いくつかの特徴について、女性と若い個人にとってより正確であることが判明し、基礎となるトレーニングデータやオンライン自己表現の違いから生じる潜在的なバイアスが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。