Fugu-MT 論文翻訳(概要): Limits of Large Language Models in Debating Humans

論文の概要: Limits of Large Language Models in Debating Humans

arxiv url: http://arxiv.org/abs/2402.06049v2
Date: Sat, 01 Feb 2025 23:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:52.97572
Title: Limits of Large Language Models in Debating Humans
Title（参考訳）: 対話型人間における大規模言語モデルの限界
Authors: James Flamino, Mohammed Shahid Modi, Boleslaw K. Szymanski, Brendan Cross, Colton Mikolajczyk,
Abstract要約: 大規模言語モデル(LLM)を用いて議論するエージェントの限界を厳格に検証する。エージェントは、人間よりも議論のトピックに溶け込み、集中し、すべてのプレイヤーの生産性を向上させることができることがわかった。しかし、人間は他の人間ほど説得力も自信も持たず、私たちが収集した人間とエージェントの行動の指標は、互いに大きく異なっています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown remarkable promise in communicating with humans. Their potential use as artificial partners with humans in sociological experiments involving conversation is an exciting prospect. But how viable is it? Here, we rigorously test the limits of agents that debate using LLMs in a preregistered study that runs multiple debate-based opinion consensus games. Each game starts with six humans, six agents, or three humans and three agents. We found that agents can blend in and concentrate on a debate's topic better than humans, improving the productivity of all players. Yet, humans perceive agents as less convincing and confident than other humans, and several behavioral metrics of humans and agents we collected deviate measurably from each other. We observed that agents are already decent debaters, but their behavior generates a pattern distinctly different from the human-generated data.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間とのコミュニケーションにおいて顕著な可能性を示している。彼らの会話を含む社会学的実験における人間との人工的なパートナーとしての利用は、エキサイティングな展望である。しかし、それがどの程度有効か? ここでは、複数の議論ベースの意見コンセンサスゲームを実行する事前登録研究において、LSMを用いた議論を行うエージェントの限界を厳格に検証する。各ゲームは6人の人間、6人のエージェント、3人のエージェントから始まる。エージェントは、人間よりも議論のトピックに溶け込み、集中し、すべてのプレイヤーの生産性を向上させることができることがわかった。しかし、人間は他の人間ほど説得力も自信も持たず、私たちが収集した人間とエージェントの行動の指標は、互いに大きく異なっています。エージェントは、すでにまともな議論者であるが、その行動は、人為的なデータとは明らかに異なるパターンを生成する。

関連論文リスト

Humanlike Multi-user Agent (HUMA): Designing a Deceptively Human AI Facilitator for Group Chats [0.0]
HUMA(Humanlike Multi-user Agent)は、AIファシリテータであり、ヒューマンライクな戦略とタイミングを用いて多人数会話に参加する。我々の結果は、自然なグループチャット設定では、AIファシリテータは人間の品質にマッチするが、人間ではないと識別することは難しいことを示唆している。
論文参考訳（メタデータ） (2025-11-21T15:34:42Z)
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文参考訳（メタデータ） (2025-05-16T11:41:19Z)
AI persuading AI vs AI persuading Humans: LLMs' Differential Effectiveness in Promoting Pro-Environmental Behavior [70.24245082578167]
環境保護行動(PEB)は気候変動に対処するために不可欠であるが、意識を意図や行動に変えることはいまだ明白である。大規模言語モデル(LLM)をPEBを促進するツールとして検討し,その影響を3,200人の参加者で比較した。人工的およびシミュレートされたエージェントは、介入後のEBスタンスに大きく影響し、ヒトの反応はほとんど変化しない。
論文参考訳（メタデータ） (2025-03-03T21:40:55Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
A little less conversation, a little more action, please: Investigating the physical common-sense of LLMs in a 3D embodied environment [0.9188951403098383]
大規模言語モデル (LLM) はエージェントシステムにおける推論エンジンとしてますます使われている。 LLMにおける身体的常識推論の具体的かつ認知的な評価を初めて提示する。シミュレーション3次元仮想実験室であるAnimal-AI環境を用いて, LLMの物理的常識推論について検討した。
論文参考訳（メタデータ） (2024-10-30T17:28:28Z)
Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina [7.155982875107922]
研究は、大規模言語モデル(LLM)が、経済実験、調査、政治談話において、人間の行動と整合した人間的な推論を示す可能性があることを示唆している。このことから、LLMは社会科学研究において人間の代理やシミュレーションとして使用できると多くの人が提案している。 11～20のマネーリクエストゲームを用いてLCMの推論深度を評価する。
論文参考訳（メタデータ） (2024-10-25T14:46:07Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
Can Language Models Recognize Convincing Arguments? [12.458437450959416]
大規模言語モデル(LLM)は、説得力のある物語を創造し広める可能性について懸念を提起している。本研究は、説得力のある議論を検知し、その説得力に関する洞察を得るための性能について研究する。
論文参考訳（メタデータ） (2024-03-31T17:38:33Z)
Enhancing Human Experience in Human-Agent Collaboration: A Human-Centered Modeling Approach Based on Positive Human Gain [18.968232976619912]
協調型AIエージェントのための「人間中心型」モデリング手法を提案する。エージェントは、エージェントの本来の能力を維持しながら、人間がこれらの目標を達成する度合いを高めることを学ぶべきである。マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲーム「Honor of Kings」におけるRLHGエージェントの評価を行った。
論文参考訳（メタデータ） (2024-01-28T05:05:57Z)
Theory of Mind abilities of Large Language Models in Human-Robot Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文参考訳（メタデータ） (2024-01-10T18:09:36Z)
SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文参考訳（メタデータ） (2024-01-08T15:01:08Z)
How should the advent of large language models affect the practice of science? [51.62881233954798]
大規模言語モデルの出現は科学の実践にどのように影響を与えるべきか? 我々は4つの科学者グループを招待し、この質問を反映し、彼らの見解を共有し、議論をおこなった。
論文参考訳（メタデータ） (2023-12-05T10:45:12Z)
The Wisdom of Partisan Crowds: Comparing Collective Intelligence in Humans and LLM-based Agents [7.986590413263814]
パルチザンの知恵」は「パルチザンの知恵」として知られる現象である。パルチザンの群衆は、人間のようなパルチザンの偏見を示すが、人間と同じように熟考を通じてより正確な信念に収束する。コンバージェンスに干渉するいくつかの要因を同定する。例えば、チェーン・オブ・ソート・プロンプトの使用や、ペルソナにおける詳細の欠如などである。
論文参考訳（メタデータ） (2023-11-16T08:30:15Z)
Large Language Models: The Need for Nuance in Current Debates and a Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。本論文は,LLM能力の批判において再発する3点を批判的に評価する。 LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文参考訳（メタデータ） (2023-10-30T15:51:04Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文参考訳（メタデータ） (2023-10-16T07:58:56Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができるこの研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文参考訳（メタデータ） (2023-04-12T17:33:28Z)
Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2023-03-22T22:53:44Z)
Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文参考訳（メタデータ） (2022-11-23T16:16:52Z)
Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文参考訳（メタデータ） (2021-10-15T16:03:57Z)
Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文参考訳（メタデータ） (2020-12-10T13:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。