論文の概要: The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.24698v1
- Date: Mon, 27 Apr 2026 17:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.254798
- Title: The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models
- Title(参考訳): Chameleonの限界:大規模言語モデルにおけるペルソナ崩壊と均質化の調査
- Authors: Yunze Xiao, Vivienne J. Zhang, Chenghao Yang, Ningshan Ma, Weihao Xuan, Jen-tse Huang,
- Abstract要約: 大規模言語モデル(LLM)に基づくアプリケーションでは,エージェント間の個体数の多様性が要求される。
エージェントはそれぞれ異なるプロファイルを割り当てるが、それでも狭い行動モードに収束し、均質なシミュレートされた人口を生み出す。
- 参考スコア(独自算出の注目度): 12.654067061944074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applications based on large language models (LLMs), such as multi-agent simulations, require population diversity among agents. We identify a pervasive failure mode we term \emph{Persona Collapse}: agents each assigned a distinct profile nonetheless converge into a narrow behavioral mode, producing a homogeneous simulated population. To quantify persona collapse, we propose a framework that measures how much of the persona space a population occupies (Coverage), how evenly agents spread across it (Uniformity), and how rich the resulting behavioral patterns are (Complexity). Evaluating ten LLMs on personality simulation (BFI-44), moral reasoning, and self-introduction, we observe persona collapse along two axes: (1) Dimensions: a model can appear diverse on one axis yet structurally degenerate on another, and (2) Domains: the same model may collapse the most in personality yet be the most diverse in moral reasoning. Furthermore, item-level diagnostics reveal that behavioral variation tracks coarse demographic stereotypes rather than the fine-grained individual differences specified in each persona. Counter-intuitively, \textbf{the models achieving the highest per-persona fidelity consistently produce the most stereotyped populations}. We release our toolkit and data to support population-level evaluation of LLMs.
- Abstract(参考訳): マルチエージェントシミュレーションなどの大規模言語モデル(LLM)に基づくアプリケーションでは,エージェント間の個体数の多様性が要求される。
エージェントはそれぞれ異なるプロファイルを割り当てるが、それでも狭い行動モードに収束し、均質なシミュレートされた人口を生み出す。
人格の崩壊を定量化するために,人口の占める人格空間(統治)の量,均等なエージェントの拡散(普遍性),結果として生じる行動パターンの豊かさ(複雑性)を測定する枠組みを提案する。
パーソナリティシミュレーション(BFI-44)、モラル推論(モラル推論)、自己イントロダクション(自己イントロダクション(自己イントロダクション)における10個のLLMを評価し、(1)次元:モデルが1つの軸で多様に見えるが、他の軸では構造的に退化しうること、(2)ドメイン:同じモデルが最も多様でありながら道徳的推論において最も多様であるペルソナの崩壊を観察する。
さらに、項目レベルの診断では、行動変動は、各ペルソナで特定される細かい個人差よりも、人口統計学的ステレオタイプが粗いことを明らかにしている。
対意的に、個人ごとの忠実度が最も高いモデルである textbf{the は、常に最もステレオタイプ化された集団を生産する。
LLMの人口レベル評価を支援するためのツールキットとデータをリリースする。
関連論文リスト
- Machine individuality: Separating genuine idiosyncrasy from response bias in large language models [1.4323566945483497]
大規模言語モデル(LLM)は、高い意思決定支援から協力関係まで、日々の生活にますます統合されている。
ここでは、10のオープンウェイトLLMが14のサイコ言語規範で10万語以上に対して提供した7490万のレーティングにランダムクロスモデルを適用する。
平均して16.9%の分散は刺激特異的な個人性に起因するものであり、統計的なヌルモデルを上回る。
論文 参考訳(メタデータ) (2026-04-18T00:02:41Z) - HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - MASim: Multilingual Agent-Based Simulation for Social Science [68.04129327237963]
マルチエージェントロールプレイングは近年,言語エージェントを用いた社会行動研究の公約を示している。
既存のシミュレーションは主に単言語であり、言語間相互作用をモデル化することができない。
我々は、最初の多言語エージェントベースのシミュレーションフレームワークであるMASimを紹介する。
論文 参考訳(メタデータ) (2025-12-08T06:12:48Z) - Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) [90.45301024940329]
言語モデル(LM)は、多様で人間らしい創造的コンテンツを生成するのに苦労することが多い。
Infinity-Chatは26万の多様な実世界のオープンエンドユーザクエリからなる大規模データセットである。
本研究では, LMのモード崩壊について大規模に検討し, 人工Hivemind効果が明らかとなった。
論文 参考訳(メタデータ) (2025-10-27T03:16:21Z) - MF-LLM: Simulating Population Decision Dynamics via a Mean-Field Large Language Model Framework [53.82097200295448]
MF-LLM(Mean-Field LLM)は,まず平均場理論を社会シミュレーションに取り入れる。
MF-LLMは反復過程を通じて個人と人口間の双方向相互作用をモデル化する。
IB-Tuneは、Information Bottleneckの原理にインスパイアされた、新しい微調整手法である。
論文 参考訳(メタデータ) (2025-04-30T12:41:51Z) - Mixture-of-Personas Language Models for Population Simulation [20.644911871150136]
大規模言語モデル(LLM)は、社会科学研究や機械学習モデルトレーニングにおいて、人為的なデータを増やすことができる。
MoPは文脈混合モデルであり、各コンポーネントは、ペルソナとサブポピュレーションの振る舞いを表す例によって特徴づけられるLMエージェントである。
MoPは柔軟性があり、モデル微調整を必要とせず、ベースモデル間で転送可能である。
論文 参考訳(メタデータ) (2025-04-07T12:43:05Z) - Generative Agent Simulations of 1,000 People [56.82159813294894]
本稿では,1,052人の実人の態度と行動をシミュレートする新しいエージェントアーキテクチャを提案する。
生成エージェントは一般社会調査の参加者の回答を85%の精度で再現する。
我々のアーキテクチャは、人種的およびイデオロギー的グループにおける正確さのバイアスを、人口統計学的記述のエージェントと比較して低減する。
論文 参考訳(メタデータ) (2024-11-15T11:14:34Z) - One fish, two fish, but not the whole sea: Alignment reduces language models' conceptual diversity [2.5975241792179378]
研究者は大規模言語モデル(LLM)を人間の行動研究の代替として使用することを提案した。
トレーニング後のアライメント(RLHFまたはRLAIF)がモデルの内部多様性に影響を及ぼすかどうかが議論されている。
我々は、シミュレーションされた個体の内部変動と集団レベルの変動を関連づけることで、合成合成LLMの「人口」の概念的多様性を測定する新しい方法を用いる。
論文 参考訳(メタデータ) (2024-11-07T04:38:58Z) - Learning signatures of decision making from many individuals playing the
same game [54.33783158658077]
我々は、個人の「行動スタイル」を符号化する表現を学習する予測フレームワークを設計する。
我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-02-21T21:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。