論文の概要: CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations
- arxiv url: http://arxiv.org/abs/2310.11501v1
- Date: Tue, 17 Oct 2023 18:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:48:21.930589
- Title: CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations
- Title(参考訳): CoMPosT:LLMシミュレーションにおけるキャラクタリゼーションと評価
- Authors: Myra Cheng, Tiziano Piccardi, Diyi Yang
- Abstract要約: 本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。
我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。
GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
- 参考スコア(独自算出の注目度): 61.9212914612875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has aimed to capture nuances of human behavior by using LLMs to
simulate responses from particular demographics in settings like social science
experiments and public opinion surveys. However, there are currently no
established ways to discuss or evaluate the quality of such LLM simulations.
Moreover, there is growing concern that these LLM simulations are flattened
caricatures of the personas that they aim to simulate, failing to capture the
multidimensionality of people and perpetuating stereotypes. To bridge these
gaps, we present CoMPosT, a framework to characterize LLM simulations using
four dimensions: Context, Model, Persona, and Topic. We use this framework to
measure open-ended LLM simulations' susceptibility to caricature, defined via
two criteria: individuation and exaggeration. We evaluate the level of
caricature in scenarios from existing work on LLM simulations. We find that for
GPT-4, simulations of certain demographics (political and marginalized groups)
and topics (general, uncontroversial) are highly susceptible to caricature.
- Abstract(参考訳): 最近の研究は、社会科学実験や世論調査など、特定の人口動態からの反応をシミュレートするためにLLMを用いて人間の行動のニュアンスを捉えることを目的としている。
しかし、現在ではそのようなLCMシミュレーションの品質を議論し評価する方法は確立されていない。
さらに、これらのllmシミュレーションは、シミュレーションを目的としたペルソナの平滑な似顔絵であり、人々の多次元性を捉えてステレオタイプを持続しないという懸念が高まっている。
これらのギャップを埋めるために,我々は,コンテキスト,モデル,ペルソナ,トピックの4次元を用いてLLMシミュレーションを特徴付けるフレームワークであるCoMPosTを提案する。
我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。
LLMシミュレーションにおける既存の研究からシナリオの似顔絵のレベルを評価する。
GPT-4では、特定の人口層(政治的・疎外化グループ)とトピック(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
関連論文リスト
- What Limits LLM-based Human Simulation: LLMs or Our Design? [43.54008528543768]
我々は, LLMに基づく人間シミュレーションの進展には, LLM固有の制約とシミュレーションフレームワークの設計課題の両方に対処する必要があると論じている。
この分野でのさらなる研究を支援するため、我々はLLMに基づく人体シミュレーションリソースのキュレートされたコレクションを提供する。
論文 参考訳(メタデータ) (2025-01-15T04:59:49Z) - Sense and Sensitivity: Evaluating the simulation of social dynamics via Large Language Models [27.313165173789233]
大規模言語モデルは、社会力学をシミュレートする古典的エージェントベースモデル(ABM)の強力な代替物として提案されている。
しかし、LLMのブラックボックスの性質から、LLMエージェントが実際に意図した意味論を実行するかどうかは不明である。
目的とする力学を近似するプロンプトを設計することは可能であるが、これらのシミュレーションの品質はプロンプトの特定の選択に非常に敏感である。
論文 参考訳(メタデータ) (2024-12-06T14:50:01Z) - Social Science Meets LLMs: How Reliable Are Large Language Models in Social Simulations? [40.00556764679785]
大きな言語モデル(LLM)は、ロールプレイングエージェントやコンピュータ社会科学(CSS)の応用を可能にするシミュレーションにますます採用されている。
本稿では,LLMに基づくシミュレーションはどの程度信頼性が高いか?」と答える。
論文 参考訳(メタデータ) (2024-10-30T20:09:37Z) - GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。