論文の概要: CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations
- arxiv url: http://arxiv.org/abs/2310.11501v1
- Date: Tue, 17 Oct 2023 18:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:48:21.930589
- Title: CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations
- Title(参考訳): CoMPosT:LLMシミュレーションにおけるキャラクタリゼーションと評価
- Authors: Myra Cheng, Tiziano Piccardi, Diyi Yang
- Abstract要約: 本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。
我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。
GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
- 参考スコア(独自算出の注目度): 61.9212914612875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has aimed to capture nuances of human behavior by using LLMs to
simulate responses from particular demographics in settings like social science
experiments and public opinion surveys. However, there are currently no
established ways to discuss or evaluate the quality of such LLM simulations.
Moreover, there is growing concern that these LLM simulations are flattened
caricatures of the personas that they aim to simulate, failing to capture the
multidimensionality of people and perpetuating stereotypes. To bridge these
gaps, we present CoMPosT, a framework to characterize LLM simulations using
four dimensions: Context, Model, Persona, and Topic. We use this framework to
measure open-ended LLM simulations' susceptibility to caricature, defined via
two criteria: individuation and exaggeration. We evaluate the level of
caricature in scenarios from existing work on LLM simulations. We find that for
GPT-4, simulations of certain demographics (political and marginalized groups)
and topics (general, uncontroversial) are highly susceptible to caricature.
- Abstract(参考訳): 最近の研究は、社会科学実験や世論調査など、特定の人口動態からの反応をシミュレートするためにLLMを用いて人間の行動のニュアンスを捉えることを目的としている。
しかし、現在ではそのようなLCMシミュレーションの品質を議論し評価する方法は確立されていない。
さらに、これらのllmシミュレーションは、シミュレーションを目的としたペルソナの平滑な似顔絵であり、人々の多次元性を捉えてステレオタイプを持続しないという懸念が高まっている。
これらのギャップを埋めるために,我々は,コンテキスト,モデル,ペルソナ,トピックの4次元を用いてLLMシミュレーションを特徴付けるフレームワークであるCoMPosTを提案する。
我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。
LLMシミュレーションにおける既存の研究からシナリオの似顔絵のレベルを評価する。
GPT-4では、特定の人口層(政治的・疎外化グループ)とトピック(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
関連論文リスト
- Wait, It's All Token Noise? Always Has Been: Interpreting LLM Behavior Using Shapley Value [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs [24.613282867543244]
大規模言語モデル(LLM)はより豊かな社会シミュレーションを可能にし、様々な社会現象の研究を可能にしている。
最近の研究は、これらのシミュレーションについて、人間とAIエージェントが現実世界で関与する不完全で情報非対称な相互作用と、基本的には異なっています。
論文 参考訳(メタデータ) (2024-03-08T03:49:17Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。
そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。
我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文 参考訳(メタデータ) (2024-02-13T19:46:39Z) - Self-Alignment of Large Language Models via Monopolylogue-based Social
Scene Simulation [46.11547254853924]
本稿では,ユーザの入力クエリを取り巻く現実的なシーンをエミュレートするソーシャルシーンシミュレータMATRIXを提案する。
推論速度を損なうことなく,MATRIX で LLM を微調整し,人間の値への付着性を確保する。
調整した13BサイズのLCMは、人間の値に合わせるとGPT-4を超えます。
論文 参考訳(メタデータ) (2024-02-08T14:21:03Z) - Systematic Biases in LLM Simulations of Debates [14.12892960275563]
本研究では,人間の相互作用をシミュレーションする際のLLM(Large Language Models)の限界を明らかにする。
以上の結果から,LLMエージェントが特定の政治的視点から議論される一方で,モデル固有の社会的バイアスに適合する傾向が示唆された。
この傾向は、人間の間で確立された社会的ダイナミクスから逸脱しているように見える行動パターンをもたらす。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - LLMs Simulate Big Five Personality Traits: Further Evidence [51.13560635563004]
Llama2, GPT4, Mixtralでシミュレートされた性格特性を解析した。
このことは、パーソナリティ特性をシミュレートするLLMの能力のより広範な理解に寄与する。
論文 参考訳(メタデータ) (2024-01-31T13:45:25Z) - Simulating Opinion Dynamics with Networks of LLM-based Agents [7.697132934635411]
本稿では,Large Language Models (LLMs) の集団に基づく意見力学のシミュレーション手法を提案する。
以上の結果から, LLMエージェントの正確な情報生成に対するバイアスが強く, シミュレーションエージェントが科学的現実に一致していることが明らかとなった。
しかし、素早い工学を通して確認バイアスを誘導した後、既存のエージェント・ベース・モデリングや意見ダイナミクス研究と並んで意見の断片化を観察した。
論文 参考訳(メタデータ) (2023-11-16T07:01:48Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。