論文の概要: Limits of Large Language Models in Debating Humans
- arxiv url: http://arxiv.org/abs/2402.06049v1
- Date: Tue, 6 Feb 2024 03:24:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 14:07:29.074217
- Title: Limits of Large Language Models in Debating Humans
- Title(参考訳): 人間論における大規模言語モデルの限界
- Authors: James Flamino, Mohammed Shahid Modi, Boleslaw K. Szymanski, Brendan
Cross, Colton Mikolajczyk
- Abstract要約: 大きな言語モデル(LLM)は、人間と熟達して対話する能力において顕著な可能性を示してきた。
本論文は,LLMエージェントを現実の人間と組み合わせた事前登録研究により,現在のLLMの限界を検証しようとする試みである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable promise in their ability
to interact proficiently with humans. Subsequently, their potential use as
artificial confederates and surrogates in sociological experiments involving
conversation is an exciting prospect. But how viable is this idea? This paper
endeavors to test the limits of current-day LLMs with a pre-registered study
integrating real people with LLM agents acting as people. The study focuses on
debate-based opinion consensus formation in three environments: humans only,
agents and humans, and agents only. Our goal is to understand how LLM agents
influence humans, and how capable they are in debating like humans. We find
that LLMs can blend in and facilitate human productivity but are less
convincing in debate, with their behavior ultimately deviating from human's. We
elucidate these primary failings and anticipate that LLMs must evolve further
before being viable debaters.
- Abstract(参考訳): 大規模言語モデル(llm)は、人間と巧みに対話する能力に顕著な期待を示してきた。
その後、会話に関わる社会学的実験で人工的な南軍やサロゲートとしての使用の可能性は、エキサイティングな見通しである。
しかし、このアイデアはどの程度有効か?
本論文は,LLMエージェントを現実人と組み合わせた事前登録研究により,現在のLLMの限界を検証しようとする試みである。
この研究は、人間のみ、エージェントと人間、エージェントのみの3つの環境における議論に基づく意見合意形成に焦点を当てている。
私たちのゴールは、LLMエージェントが人間にどのように影響するか、そして人間のように議論する能力について理解することです。
LLMは人間の生産性をブレンドし促進するが、議論では説得力に欠けており、最終的には人間の行動から逸脱する。
我々は、これらの主要な失敗を解明し、LCMが議論者になる前にさらに進化する必要があることを期待する。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Enhancing Human Experience in Human-Agent Collaboration: A
Human-Centered Modeling Approach Based on Positive Human Gain [18.968232976619912]
協調型AIエージェントのための「人間中心型」モデリング手法を提案する。
エージェントは、エージェントの本来の能力を維持しながら、人間がこれらの目標を達成する度合いを高めることを学ぶべきである。
マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲーム「Honor of Kings」におけるRLHGエージェントの評価を行った。
論文 参考訳(メタデータ) (2024-01-28T05:05:57Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - The Wisdom of Partisan Crowds: Comparing Collective Intelligence in
Humans and LLM-based Agents [7.986590413263814]
パルチザンの知恵」は「パルチザンの知恵」として知られる現象である。
パルチザンの群衆は、人間のようなパルチザンの偏見を示すが、人間と同じように熟考を通じてより正確な信念に収束する。
コンバージェンスに干渉するいくつかの要因を同定する。例えば、チェーン・オブ・ソート・プロンプトの使用や、ペルソナにおける詳細の欠如などである。
論文 参考訳(メタデータ) (2023-11-16T08:30:15Z) - Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。
本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文 参考訳(メタデータ) (2023-10-16T07:58:56Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文 参考訳(メタデータ) (2021-10-15T16:03:57Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。