論文の概要: Are LLM Agents Behaviorally Coherent? Latent Profiles for Social Simulation
- arxiv url: http://arxiv.org/abs/2509.03736v1
- Date: Wed, 03 Sep 2025 21:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.980799
- Title: Are LLM Agents Behaviorally Coherent? Latent Profiles for Social Simulation
- Title(参考訳): LLMエージェントは行動コヒーレントか?社会シミュレーションのための潜在プロファイル
- Authors: James Mooney, Josef Woldense, Zheng Robert Jia, Shirley Anugrah Hayati, My Ha Nguyen, Vipul Raheja, Dongyeop Kang,
- Abstract要約: LLM(Large Language Models)は、人工エージェントが人間-対象研究の実際の参加者の代用として機能するという考えを後押ししている。
エージェントは内部の整合性を維持し、異なる実験条件下での調査において同様の行動を維持するか?
本研究では,エージェントの会話行動が,内部状態から期待するものと一致しているかを検討する。
- 参考スコア(独自算出の注目度): 18.70850695450292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive capabilities of Large Language Models (LLMs) have fueled the notion that synthetic agents can serve as substitutes for real participants in human-subject research. In an effort to evaluate the merits of this claim, social science researchers have largely focused on whether LLM-generated survey data corresponds to that of a human counterpart whom the LLM is prompted to represent. In contrast, we address a more fundamental question: Do agents maintain internal consistency, retaining similar behaviors when examined under different experimental settings? To this end, we develop a study designed to (a) reveal the agent's internal state and (b) examine agent behavior in a basic dialogue setting. This design enables us to explore a set of behavioral hypotheses to assess whether an agent's conversation behavior is consistent with what we would expect from their revealed internal state. Our findings on these hypotheses show significant internal inconsistencies in LLMs across model families and at differing model sizes. Most importantly, we find that, although agents may generate responses matching those of their human counterparts, they fail to be internally consistent, representing a critical gap in their capabilities to accurately substitute for real participants in human-subject research. Our simulation code and data are publicly accessible.
- Abstract(参考訳): LLM(Large Language Models)の印象的な能力は、人工エージェントが人間の対象研究の実際の参加者の代用として機能するという考えを後押ししている。
この主張のメリットを評価するために、社会科学研究者は、LLMが生成する調査データが、LLMが表現するよう促される人間のものに対応するかどうかに大きく焦点を合わせてきた。
エージェントは内部の整合性を維持し、異なる実験条件下で調べられた場合と同様の挙動を維持するか?
この目的のために、我々は研究を考案する。
(a)エージェントの内部状態を明らかにして
b)基本対話設定におけるエージェントの動作を調べる。
この設計により,エージェントの会話行動が内部状態から期待するものと一致しているかどうかを評価するための行動仮説のセットを探索することができる。
これらの仮説は, モデルファミリーと異なるモデルサイズにおいて, LLMの内部矛盾が顕著であった。
最も重要なことは、エージェントが人間の相手と一致する反応を生成するかもしれないが、それらは内部的に一貫性がなく、人間の対象研究における実際の参加者を正確に置き換える能力の欠如を表していることだ。
私たちのシミュレーションコードとデータは公開されています。
関連論文リスト
- Do Role-Playing Agents Practice What They Preach? Belief-Behavior Consistency in LLM-Based Simulations of Human Trust [32.044592572217475]
本研究では,ロールプレイングエージェントが主張する信念が,ロールプレイング中の実際の行動とどのように一致しているかを検討する。
LLMの信念とロールプレイングシミュレーションの結果との間には,系統的な矛盾がある。
これらの知見は、LSMが主張する信念がシミュレートされた行動とどのように一致しているか、いつどのように一致しているかを特定する必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-02T23:30:51Z) - Evaluating the Simulation of Human Personality-Driven Susceptibility to Misinformation with LLMs [0.18416014644193066]
大規模言語モデル(LLM)により、大規模に合成行動データを生成することができる。
我々は,誤情報に対する個人的影響の変動を再現するために,Big-Fiveプロファイルに規定されたLLMエージェントの能力を評価する。
論文 参考訳(メタデータ) (2025-06-30T08:16:07Z) - Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。
ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。
以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T00:32:38Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Can Large Language Model Agents Simulate Human Trust Behavior? [81.45930976132203]
本研究では,Large Language Model (LLM) エージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
GPT-4は、信頼行動の観点から、人間と高い行動アライメントを示す。
また、エージェント信頼のバイアスや、他のLSMエージェントや人間に対するエージェント信頼の差についても検討する。
論文 参考訳(メタデータ) (2024-02-07T03:37:19Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。