論文の概要: How Far Are We from Believable AI Agents? A Framework for Evaluating the
Believability of Human Behavior Simulation
- arxiv url: http://arxiv.org/abs/2312.17115v1
- Date: Thu, 28 Dec 2023 16:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:36:11.781220
- Title: How Far Are We from Believable AI Agents? A Framework for Evaluating the
Believability of Human Behavior Simulation
- Title(参考訳): 信じられるAIエージェントからどこまで遠いのか?
人の行動シミュレーションの信頼性評価のための枠組み
- Authors: Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu
- Abstract要約: 我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。
エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
- 参考スコア(独自算出の注目度): 49.1914375451351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human behavior simulation of AI agents necessitates the agents to possess a
quality of believability, which is crucial as it facilitates users in
establishing trust toward the agents and streamlines the fulfillment of the
agents' goal. While recent advancements in Large Language Model (LLM) based
agents have improved human behavior simulation, challenges inherent to LLMs
(e.g., long context modeling) can undermine their believability. Consequently,
evaluating AI agent believability becomes imperative. Unfortunately, prior
research often neglects the negative impacts of LLM deficiencies. To address
these gaps, we introduce two metrics for assessing LLM-based agent
believability: consistency, and robustness, together with a benchmark,
SimulateBench, with which, we evaluate the consistency and robustness of agents
implemented with popular LLMs. We find that agents (i) struggle to accurately
depict character information when presented with lengthy profile inputs; (ii)
exhibit vulnerability to profile perturbations; and (iii) are significantly
affected by certain key factors that impact their overall believability. Code
and SimulateBench are public at https://github.com/GAIR-NLP/GPTMan.
- Abstract(参考訳): aiエージェントの人間の行動シミュレーションは、エージェントが信頼できる品質を持つ必要があるため、エージェントに対する信頼を確立し、エージェントの目標の達成を合理化する上で重要である。
近年のLarge Language Model (LLM) ベースのエージェントは人間の行動シミュレーションを改善しているが、LLM固有の課題(例えば、長期のコンテキストモデリング)は、その信頼性を損なう可能性がある。
これにより、AIエージェントの信頼性を評価することが必須となる。
残念ながら、先行研究はLLMの欠陥の負の影響を無視することが多い。
これらのギャップに対処するために、LLMベースのエージェントの信頼性を評価するための2つの指標(一貫性と堅牢性)とベンチマーク(SimulateBench)を紹介する。
私たちはエージェントを見つける
(i)長大なプロファイル入力で提示された文字情報を正確に描写するのに苦労すること。
(二)プロファイルの乱れに対する脆弱性、及び
(iii)は、その全体の信頼性に影響を与える重要な要因に大きく影響される。
CodeとSimulateBenchはhttps://github.com/GAIR-NLP/GPTManで公開されている。
関連論文リスト
- Social Science Meets LLMs: How Reliable Are Large Language Models in Social Simulations? [40.00556764679785]
大きな言語モデル(LLM)は、ロールプレイングエージェントやコンピュータ社会科学(CSS)の応用を可能にするシミュレーションにますます採用されている。
本稿では,LLMに基づくシミュレーションはどの程度信頼性が高いか?」と答える。
論文 参考訳(メタデータ) (2024-10-30T20:09:37Z) - Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.4999444543328293]
学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:25:40Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Psychometric Predictive Power of Large Language Models [32.31556074470733]
命令チューニングは、認知モデルの観点から、必ずしも人間のような大きな言語モデルを作るとは限らない。
命令調整 LLM で推定される次の単語確率は、基本 LLM で推定されるものよりも、人間の読み動作をシミュレートする場合には、しばしば悪化する。
論文 参考訳(メタデータ) (2023-11-13T17:19:14Z) - CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations [61.9212914612875]
本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。
我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。
GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-10-17T18:00:25Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。