Fugu-MT 論文翻訳(概要): Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina

論文の概要: Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina

arxiv url: http://arxiv.org/abs/2410.19599v2
Date: Sat, 16 Nov 2024 08:26:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.44716
Title: Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina
Title（参考訳）: LLMをヒトサロゲートとして使う際の注意:Scylla Ex Machina
Authors: Yuan Gao, Dokyun Lee, Gordon Burtch, Sina Fazelpour,
Abstract要約: 研究は、大規模言語モデル(LLM)が、経済実験、調査、政治談話において、人間の行動と整合した人間的な推論を示す可能性があることを示唆している。このことから、LLMは社会科学研究において人間の代理やシミュレーションとして使用できると多くの人が提案している。 11～20のマネーリクエストゲームを用いてLCMの推論深度を評価する。
参考スコア（独自算出の注目度）: 7.155982875107922
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies suggest large language models (LLMs) can exhibit human-like reasoning, aligning with human behavior in economic experiments, surveys, and political discourse. This has led many to propose that LLMs can be used as surrogates or simulations for humans in social science research. However, LLMs differ fundamentally from humans, relying on probabilistic patterns, absent the embodied experiences or survival objectives that shape human cognition. We assess the reasoning depth of LLMs using the 11-20 money request game. Nearly all advanced approaches fail to replicate human behavior distributions across many models. Causes of failure are diverse and unpredictable, relating to input language, roles, and safeguarding. These results advise caution when using LLMs to study human behavior or as surrogates or simulations.
Abstract（参考訳）: 近年の研究では、大規模言語モデル(LLM)は、経済実験、調査、政治談話において、人間の行動と整合した人間的な推論を示す可能性があることが示唆されている。このことから、LLMは社会科学研究において人間の代理やシミュレーションとして使用できると多くの人が提案している。しかし、LLMは基本的に人間と異なり、確率的パターンに依存し、人間の認知を形成する具体的経験や生存目標を欠いている。 11～20のマネーリクエストゲームを用いてLCMの推論深度を評価する。ほとんど全ての高度なアプローチは、多くのモデルにまたがる人間の行動分布の再現に失敗する。失敗の原因は多様で予測不可能であり、入力言語、役割、安全に関するものである。これらの結果は、LLMを使用して人間の行動を研究する場合や、代理やシミュレーションとして注意を喚起する。

関連論文リスト

Social Simulations with Large Language Model Risk Utopian Illusion [61.358959720048354]
社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
論文参考訳（メタデータ） (2025-10-24T06:08:41Z)
Pay What LLM Wants: Can LLM Simulate Economics Experiment with 522 Real-human Persona? [1.931250555574267]
実際の522人の人物を用いたPay-What-You-Want価格設定実験を用いて,大規模言語モデルによる個人経済意思決定の予測能力を評価する。その結果、LSMは正確な個人レベルの予測に苦しむ一方で、合理的なグループレベルの行動傾向を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-08-05T09:37:37Z)
Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games [7.504095239018173]
LLM(Large Language Model)ベースのエージェントは、現実のタスクを担い、人間の社会と関わるようになっている。本研究では,これらのAIエージェントの利他的行動に異なるペルソナと実験的フレーミングがどのような影響を及ぼすかを検討する。これらのAIエージェントは、人為的なデータに基づいて訓練されているにもかかわらず、人間の決定を正確に予測することはできない。
論文参考訳（メタデータ） (2024-10-28T17:47:41Z)
Cognitive phantoms in LLMs through the lens of latent variables [0.3441021278275805]
大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。近年のLCMに対する心理測定調査では、LLMの人間らしい特徴が報告されており、潜在的に影響する可能性がある。このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。
論文参考訳（メタデータ） (2024-09-06T12:42:35Z)
Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文参考訳（メタデータ） (2024-06-20T16:24:07Z)
A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文参考訳（メタデータ） (2024-06-17T03:52:51Z)
LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文参考訳（メタデータ） (2024-02-13T19:46:39Z)
How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。 SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文参考訳（メタデータ） (2023-12-28T16:51:11Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文参考訳（メタデータ） (2023-10-30T15:57:32Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2023-03-22T22:53:44Z)
Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。 MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文参考訳（メタデータ） (2022-05-20T07:32:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。