Fugu-MT 論文翻訳(概要): CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations

論文の概要: CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations

arxiv url: http://arxiv.org/abs/2310.11501v1
Date: Tue, 17 Oct 2023 18:00:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 18:48:21.930589
Title: CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations
Title（参考訳）: CoMPosT:LLMシミュレーションにおけるキャラクタリゼーションと評価
Authors: Myra Cheng, Tiziano Piccardi, Diyi Yang
Abstract要約: 本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。 GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
参考スコア（独自算出の注目度）: 61.9212914612875
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has aimed to capture nuances of human behavior by using LLMs to simulate responses from particular demographics in settings like social science experiments and public opinion surveys. However, there are currently no established ways to discuss or evaluate the quality of such LLM simulations. Moreover, there is growing concern that these LLM simulations are flattened caricatures of the personas that they aim to simulate, failing to capture the multidimensionality of people and perpetuating stereotypes. To bridge these gaps, we present CoMPosT, a framework to characterize LLM simulations using four dimensions: Context, Model, Persona, and Topic. We use this framework to measure open-ended LLM simulations' susceptibility to caricature, defined via two criteria: individuation and exaggeration. We evaluate the level of caricature in scenarios from existing work on LLM simulations. We find that for GPT-4, simulations of certain demographics (political and marginalized groups) and topics (general, uncontroversial) are highly susceptible to caricature.
Abstract（参考訳）: 最近の研究は、社会科学実験や世論調査など、特定の人口動態からの反応をシミュレートするためにLLMを用いて人間の行動のニュアンスを捉えることを目的としている。しかし、現在ではそのようなLCMシミュレーションの品質を議論し評価する方法は確立されていない。さらに、これらのllmシミュレーションは、シミュレーションを目的としたペルソナの平滑な似顔絵であり、人々の多次元性を捉えてステレオタイプを持続しないという懸念が高まっている。これらのギャップを埋めるために,我々は,コンテキスト,モデル,ペルソナ,トピックの4次元を用いてLLMシミュレーションを特徴付けるフレームワークであるCoMPosTを提案する。我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。 LLMシミュレーションにおける既存の研究からシナリオの似顔絵のレベルを評価する。 GPT-4では、特定の人口層(政治的・疎外化グループ)とトピック(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。

関連論文リスト

YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models [50.86336063222539]
本稿では,YuLan-OneSimというソーシャルシミュレータを紹介する。ユーザは、シミュレータとの自然言語インタラクションを通じて、シミュレーションシナリオを記述し、洗練することができます。我々は、経済学、社会学、政治、心理学、組織、人口統計学、法律、コミュニケーションを含む8つの領域にまたがる50のデフォルトシミュレーションシナリオを実装した。
論文参考訳（メタデータ） (2025-05-12T14:05:17Z)
Prompting is Not All You Need! Evaluating LLM Agent Simulation Methodologies with Real-World Online Customer Behavior Data [62.61900377170456]
人間の行動のシミュレーションにおいて「主観的信頼性」よりも「LLMの客観的精度」を評価することに重点を置いている。本稿では,Web ショッピング行動生成の課題に対して,最先端 LLM の総合評価を行った。
論文参考訳（メタデータ） (2025-03-26T17:33:27Z)
From ChatGPT to DeepSeek: Can LLMs Simulate Humanity? [32.93460040317926]
大規模言語モデル(LLM)は、複雑な人間の社会的行動を探究するための有望な方法となっている。最近の研究では、シミュレートされた相互作用と現実世界の相互作用の相違が強調されている。
論文参考訳（メタデータ） (2025-02-25T13:54:47Z)
What Limits LLM-based Human Simulation: LLMs or Our Design? [43.54008528543768]
我々は, LLMに基づく人間シミュレーションの進展には, LLM固有の制約とシミュレーションフレームワークの設計課題の両方に対処する必要があると論じている。この分野でのさらなる研究を支援するため、我々はLLMに基づく人体シミュレーションリソースのキュレートされたコレクションを提供する。
論文参考訳（メタデータ） (2025-01-15T04:59:49Z)
Sense and Sensitivity: Evaluating the simulation of social dynamics via Large Language Models [27.313165173789233]
大規模言語モデルは、社会力学をシミュレートする古典的エージェントベースモデル(ABM)の強力な代替物として提案されている。しかし、LLMのブラックボックスの性質から、LLMエージェントが実際に意図した意味論を実行するかどうかは不明である。目的とする力学を近似するプロンプトを設計することは可能であるが、これらのシミュレーションの品質はプロンプトの特定の選択に非常に敏感である。
論文参考訳（メタデータ） (2024-12-06T14:50:01Z)
Social Science Meets LLMs: How Reliable Are Large Language Models in Social Simulations? [40.00556764679785]
大きな言語モデル(LLM)は、ロールプレイングエージェントやコンピュータ社会科学(CSS)の応用を可能にするシミュレーションにますます採用されている。本稿では,LLMに基づくシミュレーションはどの程度信頼性が高いか?」と答える。
論文参考訳（メタデータ） (2024-10-30T20:09:37Z)
GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文参考訳（メタデータ） (2024-10-06T05:02:23Z)
Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs [24.613282867543244]
大規模言語モデル(LLM)はより豊かな社会シミュレーションを可能にし、様々な社会現象の研究を可能にしている。最近の研究は、これらのシミュレーションについて、人間とAIエージェントが現実世界で関与する不完全で情報非対称な相互作用と、基本的には異なっています。
論文参考訳（メタデータ） (2024-03-08T03:49:17Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文参考訳（メタデータ） (2024-02-13T19:46:39Z)
Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-02-06T14:51:55Z)
How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。 SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文参考訳（メタデータ） (2023-12-28T16:51:11Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。