論文の概要: Book your room in the Turing Hotel! A symmetric and distributed Turing Test with multiple AIs and humans
- arxiv url: http://arxiv.org/abs/2603.18981v1
- Date: Thu, 19 Mar 2026 14:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.208472
- Title: Book your room in the Turing Hotel! A symmetric and distributed Turing Test with multiple AIs and humans
- Title(参考訳): チューリングホテルの部屋を予約! 複数のAIと人間による対称で分散チューリングテスト
- Authors: Christian Di Maio, Tommaso Guidi, Luigi Quarantiello, Jack Bell, Marco Gori, Stefano Melacci, Vincenzo Lomonaco,
- Abstract要約: 本研究では,大規模言語モデル(LLM)と人的参加者の混合コミュニティ間の相互作用に基づくチューリングテストの新たな拡張であるTuringHotel'の経験を報告する。
チューリングテストの古典的な1対1のインタラクションは、人間と人工エージェントの両方が時間に縛られた議論に従事し、興味深いことに、審査員と回答者の両方であるグループ設定で再解釈される。
実験の結果、17人の被験者と19人のLSMによる実験の結果、現在のモデルが人間と混同されていることが判明した。
- 参考スコア(独自算出の注目度): 11.294156739799654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we report our experience with ``TuringHotel'', a novel extension of the Turing Test based on interactions within mixed communities of Large Language Models (LLMs) and human participants. The classical one-to-one interaction of the Turing Test is reinterpreted in a group setting, where both human and artificial agents engage in time-bounded discussions and, interestingly, are both judges and respondents. This community is instantiated in the novel platform UNaIVERSE (https://unaiverse.io), creating a ``World'' which defines the roles and interaction dynamics, facilitated by the platform's built-in programming tools. All communication occurs over an authenticated peer-to-peer network, ensuring that no third parties can access the exchange. The platform also provides a unified interface for humans, accessible via both mobile devices and laptops, that was a key component of the experience in this paper. Results of our experimentation involving 17 human participants and 19 LLMs revealed that current models are still sometimes confused as humans. Interestingly, there are several unexpected mistakes, suggesting that human fingerprints are still identifiable but not fully unambiguous, despite the high-quality language skills of artificial participants. We argue that this is the first experiment conducted in such a distributed setting, and that similar initiatives could be of national interest to support ongoing experiments and competitions aimed at monitoring the evolution of large language models over time.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)と人的参加者の混合コミュニティ間の相互作用に基づくチューリングテストの新たな拡張である 'TuringHotel' の経験を報告する。
チューリングテストの古典的な1対1のインタラクションは、人間と人工エージェントの両方が時間に縛られた議論に従事し、興味深いことに、審査員と回答者の両方であるグループ設定で再解釈される。
このコミュニティは、新しいプラットフォーム UNaIVERSE (https://unaiverse.io) でインスタンス化され、プラットフォームに組み込まれたプログラミングツールによって促進される役割と相互作用のダイナミクスを定義する '`World'' を作成する。
すべての通信は認証されたピアツーピアネットワーク上で行われ、サードパーティがその交換にアクセスできないことを保証する。
このプラットフォームは、モバイルデバイスとラップトップの両方からアクセス可能な、統一されたインターフェースも提供しています。
実験の結果、17人の被験者と19人のLSMによる実験の結果、現在のモデルが人間と混同されていることが判明した。
興味深いことに、予期せぬ誤りがいくつかあり、人間の指紋はまだ識別可能であるが、人工的な参加者の高品質な言語スキルにもかかわらず、完全に曖昧ではないことを示唆している。
このような分散環境で実施された最初の実験であり、同様の取り組みが、時間とともに大規模言語モデルの進化を監視することを目的とした、進行中の実験と競争を支援するための国家的関心事である可能性がある、と我々は主張する。
関連論文リスト
- Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - Multi-Turn Human-LLM Interaction Through the Lens of a Two-Way Intelligibility Protocol [1.5711521670164208]
本稿では,エージェント間のインタラクションのための抽象的プロトコルに基づく,より構造化されたアプローチについて検討する。
このプロトコルは"双方向のインテリジェンス"の概念によって動機付けられ、通信有限状態マシンのペアによってモデル化される。
その結果,人間-LLM相互作用における一方向および二方向のインテリジェンスを捕捉するプロトコルの能力を支持する証拠が得られた。
論文 参考訳(メタデータ) (2024-10-27T21:20:18Z) - X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。
従来の設定では、各参加者は一度に1つのメッセージに制限される。
本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming [4.779196219827508]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。
このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。
12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文 参考訳(メタデータ) (2023-12-12T12:26:48Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。