Fugu-MT 論文翻訳(概要): Limits of Large Language Models in Debating Humans

論文の概要: Limits of Large Language Models in Debating Humans

arxiv url: http://arxiv.org/abs/2402.06049v1
Date: Tue, 6 Feb 2024 03:24:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-18 14:07:29.074217
Title: Limits of Large Language Models in Debating Humans
Title（参考訳）: 人間論における大規模言語モデルの限界
Authors: James Flamino, Mohammed Shahid Modi, Boleslaw K. Szymanski, Brendan Cross, Colton Mikolajczyk
Abstract要約: 大きな言語モデル(LLM)は、人間と熟達して対話する能力において顕著な可能性を示してきた。本論文は,LLMエージェントを現実の人間と組み合わせた事前登録研究により,現在のLLMの限界を検証しようとする試みである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown remarkable promise in their ability to interact proficiently with humans. Subsequently, their potential use as artificial confederates and surrogates in sociological experiments involving conversation is an exciting prospect. But how viable is this idea? This paper endeavors to test the limits of current-day LLMs with a pre-registered study integrating real people with LLM agents acting as people. The study focuses on debate-based opinion consensus formation in three environments: humans only, agents and humans, and agents only. Our goal is to understand how LLM agents influence humans, and how capable they are in debating like humans. We find that LLMs can blend in and facilitate human productivity but are less convincing in debate, with their behavior ultimately deviating from human's. We elucidate these primary failings and anticipate that LLMs must evolve further before being viable debaters.
Abstract（参考訳）: 大規模言語モデル(llm)は、人間と巧みに対話する能力に顕著な期待を示してきた。その後、会話に関わる社会学的実験で人工的な南軍やサロゲートとしての使用の可能性は、エキサイティングな見通しである。しかし、このアイデアはどの程度有効か? 本論文は,LLMエージェントを現実人と組み合わせた事前登録研究により,現在のLLMの限界を検証しようとする試みである。この研究は、人間のみ、エージェントと人間、エージェントのみの3つの環境における議論に基づく意見合意形成に焦点を当てている。私たちのゴールは、LLMエージェントが人間にどのように影響するか、そして人間のように議論する能力について理解することです。 LLMは人間の生産性をブレンドし促進するが、議論では説得力に欠けており、最終的には人間の行動から逸脱する。我々は、これらの主要な失敗を解明し、LCMが議論者になる前にさらに進化する必要があることを期待する。

関連論文リスト

AI persuading AI vs AI persuading Humans: LLMs' Differential Effectiveness in Promoting Pro-Environmental Behavior [70.24245082578167]
環境保護行動(PEB)は気候変動に対処するために不可欠であるが、意識を意図や行動に変えることはいまだ明白である。大規模言語モデル(LLM)をPEBを促進するツールとして検討し,その影響を3,200人の参加者で比較した。人工的およびシミュレートされたエージェントは、介入後のEBスタンスに大きく影響し、ヒトの反応はほとんど変化しない。
論文参考訳（メタデータ） (2025-03-03T21:40:55Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
A little less conversation, a little more action, please: Investigating the physical common-sense of LLMs in a 3D embodied environment [0.9188951403098383]
大規模言語モデル (LLM) はエージェントシステムにおける推論エンジンとしてますます使われている。 LLMにおける身体的常識推論の具体的かつ認知的な評価を初めて提示する。シミュレーション3次元仮想実験室であるAnimal-AI環境を用いて, LLMの物理的常識推論について検討した。
論文参考訳（メタデータ） (2024-10-30T17:28:28Z)
Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina [7.155982875107922]
研究は、大規模言語モデル(LLM)が、経済実験、調査、政治談話において、人間の行動と整合した人間的な推論を示す可能性があることを示唆している。このことから、LLMは社会科学研究において人間の代理やシミュレーションとして使用できると多くの人が提案している。 11～20のマネーリクエストゲームを用いてLCMの推論深度を評価する。
論文参考訳（メタデータ） (2024-10-25T14:46:07Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
Can Language Models Recognize Convincing Arguments? [12.458437450959416]
大規模言語モデル(LLM)は、説得力のある物語を創造し広める可能性について懸念を提起している。本研究は、説得力のある議論を検知し、その説得力に関する洞察を得るための性能について研究する。
論文参考訳（メタデータ） (2024-03-31T17:38:33Z)
Enhancing Human Experience in Human-Agent Collaboration: A Human-Centered Modeling Approach Based on Positive Human Gain [18.968232976619912]
協調型AIエージェントのための「人間中心型」モデリング手法を提案する。エージェントは、エージェントの本来の能力を維持しながら、人間がこれらの目標を達成する度合いを高めることを学ぶべきである。マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲーム「Honor of Kings」におけるRLHGエージェントの評価を行った。
論文参考訳（メタデータ） (2024-01-28T05:05:57Z)
Theory of Mind abilities of Large Language Models in Human-Robot Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文参考訳（メタデータ） (2024-01-10T18:09:36Z)
SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文参考訳（メタデータ） (2024-01-08T15:01:08Z)
How should the advent of large language models affect the practice of science? [51.62881233954798]
大規模言語モデルの出現は科学の実践にどのように影響を与えるべきか? 我々は4つの科学者グループを招待し、この質問を反映し、彼らの見解を共有し、議論をおこなった。
論文参考訳（メタデータ） (2023-12-05T10:45:12Z)
The Wisdom of Partisan Crowds: Comparing Collective Intelligence in Humans and LLM-based Agents [7.986590413263814]
パルチザンの知恵」は「パルチザンの知恵」として知られる現象である。パルチザンの群衆は、人間のようなパルチザンの偏見を示すが、人間と同じように熟考を通じてより正確な信念に収束する。コンバージェンスに干渉するいくつかの要因を同定する。例えば、チェーン・オブ・ソート・プロンプトの使用や、ペルソナにおける詳細の欠如などである。
論文参考訳（メタデータ） (2023-11-16T08:30:15Z)
Large Language Models: The Need for Nuance in Current Debates and a Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。本論文は,LLM能力の批判において再発する3点を批判的に評価する。 LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文参考訳（メタデータ） (2023-10-30T15:51:04Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文参考訳（メタデータ） (2023-10-16T07:58:56Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができるこの研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文参考訳（メタデータ） (2023-04-12T17:33:28Z)
Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2023-03-22T22:53:44Z)
Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文参考訳（メタデータ） (2021-10-15T16:03:57Z)
Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文参考訳（メタデータ） (2020-12-10T13:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。