論文の概要: How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation
- arxiv url: http://arxiv.org/abs/2312.17115v2
- Date: Sat, 15 Jun 2024 14:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 07:04:39.812810
- Title: How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation
- Title(参考訳): 達成可能なAIからLLMはどこまで遠いか? : 人間の行動シミュレーションの信頼性評価のためのベンチマーク
- Authors: Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu,
- Abstract要約: 我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
- 参考スコア(独自算出の注目度): 46.42384207122049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, AI has demonstrated remarkable capabilities in simulating human behaviors, particularly those implemented with large language models (LLMs). However, due to the lack of systematic evaluation of LLMs' simulated behaviors, the believability of LLMs among humans remains ambiguous, i.e., it is unclear which behaviors of LLMs are convincingly human-like and which need further improvements. In this work, we design SimulateBench to evaluate the believability of LLMs when simulating human behaviors. In specific, we evaluate the believability of LLMs based on two critical dimensions: 1) consistency: the extent to which LLMs can behave consistently with the given information of a human to simulate; and 2) robustness: the ability of LLMs' simulated behaviors to remain robust when faced with perturbations. SimulateBench includes 65 character profiles and a total of 8,400 questions to examine LLMs' simulated behaviors. Based on SimulateBench, we evaluate the performances of 10 widely used LLMs when simulating characters. The experimental results reveal that current LLMs struggle to align their behaviors with assigned characters and are vulnerable to perturbations in certain factors.
- Abstract(参考訳): 近年、AIは人間の行動、特に大規模言語モデル(LLM)で実装された行動のシミュレーションにおいて顕著な能力を発揮している。
しかし、LLMのシミュレートされた行動の体系的評価が欠如しているため、LLMの人間に対する信頼性はあいまいである。
本研究では,人間行動のシミュレーションにおいて,LLMの信頼性を評価するためにシミュレートベンチを設計する。
具体的には,LLMの信頼性を2つの臨界次元に基づいて評価する。
1) 一貫性: LLMが人間に模擬される所定の情報と一貫して振る舞うことができる範囲、及び
2) 頑健性: 摂動に直面するとき, LLMのシミュレーション行動が頑健であること。
SimulateBenchには65の文字プロファイルと8,400の質問が含まれている。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
実験結果から,現在のLSMは与えられた文字と行動の整合に苦慮し,特定の要因の摂動に弱いことが明らかとなった。
関連論文リスト
- Social Science Meets LLMs: How Reliable Are Large Language Models in Social Simulations? [40.00556764679785]
大きな言語モデル(LLM)は、ロールプレイングエージェントやコンピュータ社会科学(CSS)の応用を可能にするシミュレーションにますます採用されている。
本稿では,LLMに基づくシミュレーションはどの程度信頼性が高いか?」と答える。
論文 参考訳(メタデータ) (2024-10-30T20:09:37Z) - Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.4999444543328293]
学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:25:40Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Psychometric Predictive Power of Large Language Models [32.31556074470733]
命令チューニングは、認知モデルの観点から、必ずしも人間のような大きな言語モデルを作るとは限らない。
命令調整 LLM で推定される次の単語確率は、基本 LLM で推定されるものよりも、人間の読み動作をシミュレートする場合には、しばしば悪化する。
論文 参考訳(メタデータ) (2023-11-13T17:19:14Z) - CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations [61.9212914612875]
本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。
我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。
GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-10-17T18:00:25Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。