論文の概要: How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO
- arxiv url: http://arxiv.org/abs/2404.13957v1
- Date: Mon, 22 Apr 2024 08:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:55:25.804272
- Title: How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO
- Title(参考訳): LLMはいかにしてEchoを使えるか?ECHOによるAIチャットボットのロールプレイ能力の評価
- Authors: Man Tik Ng, Hui Tung Tse, Jen-tse Huang, Jingjing Li, Wenxuan Wang, Michael R. Lyu,
- Abstract要約: チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
- 参考スコア(独自算出の注目度): 55.25989137825992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The role-play ability of Large Language Models (LLMs) has emerged as a popular research direction. However, existing studies focus on imitating well-known public figures or fictional characters, overlooking the potential for simulating ordinary individuals. Such an oversight limits the potential for advancements in digital human clones and non-player characters in video games. To bridge this gap, we introduce ECHO, an evaluative framework inspired by the Turing test. This framework engages the acquaintances of the target individuals to distinguish between human and machine-generated responses. Notably, our framework focuses on emulating average individuals rather than historical or fictional figures, presenting a unique advantage to apply the Turing Test. We evaluated three role-playing LLMs using ECHO, with GPT-3.5 and GPT-4 serving as foundational models, alongside the online application GPTs from OpenAI. Our results demonstrate that GPT-4 more effectively deceives human evaluators, and GPTs achieves a leading success rate of 48.3%. Furthermore, we investigated whether LLMs could discern between human-generated and machine-generated texts. While GPT-4 can identify differences, it could not determine which texts were human-produced. Our code and results of reproducing the role-playing LLMs are made publicly available via https://github.com/CUHK-ARISE/ECHO.
- Abstract(参考訳): LLM(Large Language Models)のロールプレイ能力は、一般的な研究の方向性として現れている。
しかし、現存する研究は、一般市民をシミュレートする可能性を見越して、著名人や架空の人物を模倣することに焦点を当てている。
このような監視は、ビデオゲームにおけるデジタル人間クローンやノンプレイヤーキャラクターの進歩の可能性を制限している。
このギャップを埋めるために、チューリングテストに触発された評価フレームワークECHOを紹介します。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
特に、我々のフレームワークは、歴史や架空の人物ではなく、平均的な個人をエミュレートすることに焦点を当てており、チューリングテストを適用する上でユニークな利点を示している。
GPT-3.5 と GPT-4 の3つのロールプレイング LLM を基盤モデルとして,OpenAI のオンラインアプリケーション GPT とともに評価した。
以上の結果から, GPT-4はヒト評価因子をより効果的に欺き, GPTは48.3%の成功率を達成した。
さらに,LLMが人間生成テキストと機械生成テキストを区別できるかどうかを検討した。
GPT-4は違いを識別できるが、どのテキストが人為的に生成されているかは特定できなかった。
ロールプレイング LLM を再現したコードと結果は https://github.com/CUHK-ARISE/ECHO で公開されている。
関連論文リスト
- From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。
RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。
彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文 参考訳(メタデータ) (2024-04-28T15:56:41Z) - Are Large Language Models Aligned with People's Social Intuitions for
Human-Robot Interactions? [7.983988656380409]
大規模言語モデル(LLM)は、ロボット工学、特にハイレベルな行動計画にますます使われている。
本研究では,人間とロボットの相互作用のシナリオにおいて,LLMが人々の直感やコミュニケーションを再現するかどうかを検証する。
視覚モデルでは映像刺激の本質を捉えることができず、LLMは人よりもコミュニケーション行動や行動を評価する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-03-08T22:23:23Z) - ChatGPT as a commenter to the news: can LLMs generate human-like
opinions? [3.0309690768567754]
我々は、GPT-3.5がオランダのニュース記事に対して、どの程度人間的なコメントを生成できるかを検討する。
複数のプロンプト技術で人間の類似性を解析する。
細調整されたBERTモデルでは,GPT-3.5生成したコメントと人手によるコメントを容易に区別できることがわかった。
論文 参考訳(メタデータ) (2023-12-21T15:46:36Z) - AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising [4.924903495092775]
大きな言語モデル(LLM)は、人間の文章を忠実に模倣するテキストを作成し、潜在的に誤用につながる可能性がある。
本稿では,機械生成テキストと人文テキストを区別する効率的な分類器であるAuthentiGPTを提案する。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示した。
論文 参考訳(メタデータ) (2023-11-13T19:36:54Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models
via Contextual Integrity Theory [86.8514623654506]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。
本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文 参考訳(メタデータ) (2023-10-16T07:58:56Z) - Large Language Models Can Infer Psychological Dispositions of Social
Media Users [1.2277343096128712]
本研究では,デジタルフットプリントから個人の心理的沈着を推定する大規模言語モデルの可能性について検討した。
ゼロショット学習シナリオにおいて,GPT-3.5とGPT-4がユーザのFacebookステータス更新からビッグファイブの特徴を引き出す能力を評価する。
以上の結果から,性別や年齢に対する性格推定の偏りが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。