論文の概要: Self-Directed Turing Test for Large Language Models
- arxiv url: http://arxiv.org/abs/2408.09853v1
- Date: Mon, 19 Aug 2024 09:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:44:56.799417
- Title: Self-Directed Turing Test for Large Language Models
- Title(参考訳): 大規模言語モデルに対する自己指向型チューリングテスト
- Authors: Weiqi Wu, Hongqiu Wu, Hai Zhao,
- Abstract要約: チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
- 参考スコア(独自算出の注目度): 56.64615470513102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Turing test examines whether AIs can exhibit human-like behaviour in natural language conversations. Traditional Turing tests adopt a rigid dialogue format where each participant sends only one message each time and require continuous human involvement to direct the entire interaction with the test subject. This fails to reflect a natural conversational style and hinders the evaluation of Large Language Models (LLMs) in complex and prolonged dialogues. This paper proposes the Self-Directed Turing Test, which extends the original test with a burst dialogue format, allowing more dynamic exchanges by multiple consecutive messages. It further efficiently reduces human workload by having the LLM self-direct the majority of the test process, iteratively generating dialogues that simulate its interaction with humans. With the pseudo-dialogue history, the model then engages in a shorter dialogue with a human, which is paired with a human-human conversation on the same topic to be judged using questionnaires. We introduce the X-Turn Pass-Rate metric to assess the human likeness of LLMs across varying durations. While LLMs like GPT-4 initially perform well, achieving pass rates of 51.9% and 38.9% during 3 turns and 10 turns of dialogues respectively, their performance drops as the dialogue progresses, which underscores the difficulty in maintaining consistency in the long term.
- Abstract(参考訳): チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストは厳格な対話形式を採用しており、各参加者は毎回1つのメッセージしか送信せず、テスト対象とのインタラクション全体を指示するために人間による継続的な関与を必要としている。
これは自然な会話スタイルを反映せず、複雑で長い対話においてLLM(Large Language Models)の評価を妨げる。
本稿では,バーストダイアログ形式で元のテストを拡張し,複数メッセージによるよりダイナミックな交換を可能にするセルフディレクテッドチューリングテストを提案する。
さらに、LLMがテストプロセスの大部分を自己指揮し、人間との相互作用をシミュレートする対話を反復的に生成することで、人間の作業量を効率的に削減する。
擬似対話履歴を用いて、モデルは人間と短い対話を行い、同じトピックで人間と人間の会話と組み合わせて、アンケートを用いて判断する。
X-Turn Pass-Rate 測定法を導入し,LLM の人間的類似度を様々な期間にわたって評価する。
GPT-4のようなLCMは3ターンと10ターンの対話で51.9%と38.9%のパスレートを達成したが、対話が進行するにつれて性能が低下し、長期的な一貫性維持の難しさが浮き彫りになった。
関連論文リスト
- Fostering Natural Conversation in Large Language Models with NICO: a Natural Interactive COnversation dataset [28.076028584051617]
NICO(Natural Interactive Conversation)は、中国における対話型会話データセットである。
まず,GPT-4-turboを用いて対話草案を作成し,20の日常生活トピックと5種類のソーシャルインタラクションをカバーさせる。
不自然な文を識別・書き直しする2つの対話レベル自然な会話タスクと2つの文レベルタスクを定義する。
論文 参考訳(メタデータ) (2024-08-18T02:06:25Z) - Stephanie: Step-by-Step Dialogues for Mimicking Human Interactions in Social Conversations [50.698517967337885]
本研究では,人間の会話の動的な性質を模倣する新しいテキストbf-by-Step Dialogue Paradigm (Stephanie)を提案する。
デュアルラーニング戦略と,さらに分割した後編集手法を用いて,高品質なステップバイステップ対話データセットを作成した。
従来の単段階対話のパラダイムと比較して,その効果を評価するために,自動評価と人的評価を行った。
論文 参考訳(メタデータ) (2024-07-04T17:59:41Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - PSYDIAL: Personality-based Synthetic Dialogue Generation using Large Language Models [4.283022729693451]
本稿では,大規模言語モデルからの応答をプロンプトによって引き出すための,エンドツーエンドのパーソナリティに基づく合成対話データ生成パイプラインを提案する。
提案したパイプラインを用いて,パーソナリティに基づく対話に焦点を当てた韓国初の対話データセットPSYDIALを紹介した。
実験結果から, 事前学習モデルと, チャイトチャットデータセットを用いた微調整モデルでは, 人格を反映する応答を生成するのに苦労する一方で, PSYDIALでトレーニングしたモデルでは, 大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-04-01T05:19:34Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。