Fugu-MT 論文翻訳(概要): Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs

論文の概要: Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs

arxiv url: http://arxiv.org/abs/2403.05020v3
Date: Thu, 18 Apr 2024 18:55:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 19:28:01.854629
Title: Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs
Title（参考訳）: これが現実なのか? 幻想なのか? LLMとの社会的相互作用のシミュレーションの失敗の成功
Authors: Xuhui Zhou, Zhe Su, Tiwalayo Eisape, Hyunwoo Kim, Maarten Sap,
Abstract要約: 大規模言語モデル(LLM)はより豊かな社会シミュレーションを可能にし、様々な社会現象の研究を可能にしている。最近の研究は、これらのシミュレーションについて、人間とAIエージェントが現実世界で関与する不完全で情報非対称な相互作用と、基本的には異なっています。
参考スコア（独自算出の注目度）: 24.613282867543244
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in large language models (LLM) have enabled richer social simulations, allowing for the study of various social phenomena. However, most recent work has used a more omniscient perspective on these simulations (e.g., single LLM to generate all interlocutors), which is fundamentally at odds with the non-omniscient, information asymmetric interactions that involve humans and AI agents in the real world. To examine these differences, we develop an evaluation framework to simulate social interactions with LLMs in various settings (omniscient, non-omniscient). Our experiments show that LLMs perform better in unrealistic, omniscient simulation settings but struggle in ones that more accurately reflect real-world conditions with information asymmetry. Our findings indicate that addressing information asymmetry remains a fundamental challenge for LLM-based agents.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、より豊かな社会シミュレーションを可能にし、様々な社会現象の研究を可能にしている。しかし、最近の研究は、これらのシミュレーション(例えば、すべてのインターロケータを生成するために単一のLSM)について、より完全な視点を用いている。これらの違いを調べるために, 様々な環境下でのLLMとの社会的相互作用をシミュレートする評価フレームワークを開発した。実験の結果,LLMは非現実的で全知的なシミュレーション環境では優れるが,情報非対称性で現実の状態をより正確に反映する環境では苦戦していることがわかった。以上の結果から, 情報非対称性への対処は, LLMをベースとしたエージェントにとって依然として根本的な課題であることが示唆された。

関連論文リスト

Leveraging LLM-based agents for social science research: insights from citation network simulations [132.4334196445918]
CiteAgentフレームワークを導入し、人間-行動シミュレーションに基づく引用ネットワークを生成する。 CiteAgentは、実世界の引用ネットワークにおける主要な現象を捉えている。社会科学において2つのLCMに基づく研究パラダイムを確立し,既存の理論の検証と挑戦を可能にした。
論文参考訳（メタデータ） (2025-11-05T08:47:04Z)
Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文参考訳（メタデータ） (2025-10-24T06:08:41Z)
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文参考訳（メタデータ） (2025-10-20T13:14:38Z)
SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文参考訳（メタデータ） (2025-06-01T08:36:51Z)
SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users [70.02370111025617]
本稿では,社会シミュレーションのためのエージェント駆動世界モデルであるSocioVerseを紹介する。私たちのフレームワークは、4つの強力なアライメントコンポーネントと1000万の実際の個人からなるユーザプールを備えています。 SocioVerseは、多様性、信頼性、代表性を確保しつつ、大規模な人口動態を反映できることを示した。
論文参考訳（メタデータ） (2025-04-14T12:12:52Z)
LLM Social Simulations Are a Promising Research Method [4.6456873975541635]
我々は,5つの難題に対処することで,LLM社会シミュレーションの約束を達成できると主張している。 LLMの社会シミュレーションは、すでにパイロット実験や探索研究に利用できると信じている。研究者は、新しいAIシステムを最大限に活用するために、概念モデルと反復評価の開発を優先すべきである。
論文参考訳（メタデータ） (2025-04-03T03:01:26Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
Prompting is Not All You Need! Evaluating LLM Agent Simulation Methodologies with Real-World Online Customer Behavior Data [62.61900377170456]
人間の行動のシミュレーションにおいて「主観的信頼性」よりも「LLMの客観的精度」を評価することに重点を置いている。本稿では,Web ショッピング行動生成の課題に対して,最先端 LLM の総合評価を行った。
論文参考訳（メタデータ） (2025-03-26T17:33:27Z)
From ChatGPT to DeepSeek: Can LLMs Simulate Humanity? [32.93460040317926]
大規模言語モデル(LLM)は、複雑な人間の社会的行動を探究するための有望な方法となっている。最近の研究では、シミュレートされた相互作用と現実世界の相互作用の相違が強調されている。
論文参考訳（メタデータ） (2025-02-25T13:54:47Z)
Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。 GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文参考訳（メタデータ） (2025-02-17T17:43:08Z)
Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective [22.30892836263764]
人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、興味深い疑問が浮かび上がっている。 LLMはToMとソーシャル化の機能の観点からどのように機能するか? EgoSocialArenaは,LLMのToMと社会化能力を評価するための新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-08T16:55:51Z)
GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文参考訳（メタデータ） (2024-10-06T05:02:23Z)
Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文参考訳（メタデータ） (2024-09-12T18:00:18Z)
Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文参考訳（メタデータ） (2024-09-02T08:28:19Z)
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文参考訳（メタデータ） (2024-05-29T18:45:55Z)
Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-04-25T15:59:16Z)
Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation [43.913403294346686]
本稿では,ユーザの入力クエリを取り巻く現実的なシーンをエミュレートするソーシャルシーンシミュレータMATRIXを提案する。推論速度を損なうことなく,MATRIX で LLM を微調整し,人間の値への付着性を確保する。我々の手法は4つのベンチマークで10以上のベースラインを上回ります。
論文参考訳（メタデータ） (2024-02-08T14:21:03Z)
CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations [61.9212914612875]
本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。 GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
論文参考訳（メタデータ） (2023-10-17T18:00:25Z)
Training Socially Aligned Language Models on Simulated Social Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-05-26T14:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。