Fugu-MT 論文翻訳(概要): How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation

論文の概要: How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation

arxiv url: http://arxiv.org/abs/2312.17115v1
Date: Thu, 28 Dec 2023 16:51:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 15:36:11.781220
Title: How Far Are We from Believable AI Agents? A Framework for Evaluating the Believability of Human Behavior Simulation
Title（参考訳）: 信じられるAIエージェントからどこまで遠いのか? 人の行動シミュレーションの信頼性評価のための枠組み
Authors: Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu
Abstract要約: 我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
参考スコア（独自算出の注目度）: 49.1914375451351
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human behavior simulation of AI agents necessitates the agents to possess a quality of believability, which is crucial as it facilitates users in establishing trust toward the agents and streamlines the fulfillment of the agents' goal. While recent advancements in Large Language Model (LLM) based agents have improved human behavior simulation, challenges inherent to LLMs (e.g., long context modeling) can undermine their believability. Consequently, evaluating AI agent believability becomes imperative. Unfortunately, prior research often neglects the negative impacts of LLM deficiencies. To address these gaps, we introduce two metrics for assessing LLM-based agent believability: consistency, and robustness, together with a benchmark, SimulateBench, with which, we evaluate the consistency and robustness of agents implemented with popular LLMs. We find that agents (i) struggle to accurately depict character information when presented with lengthy profile inputs; (ii) exhibit vulnerability to profile perturbations; and (iii) are significantly affected by certain key factors that impact their overall believability. Code and SimulateBench are public at https://github.com/GAIR-NLP/GPTMan.
Abstract（参考訳）: aiエージェントの人間の行動シミュレーションは、エージェントが信頼できる品質を持つ必要があるため、エージェントに対する信頼を確立し、エージェントの目標の達成を合理化する上で重要である。近年のLarge Language Model (LLM) ベースのエージェントは人間の行動シミュレーションを改善しているが、LLM固有の課題(例えば、長期のコンテキストモデリング)は、その信頼性を損なう可能性がある。これにより、AIエージェントの信頼性を評価することが必須となる。残念ながら、先行研究はLLMの欠陥の負の影響を無視することが多い。これらのギャップに対処するために、LLMベースのエージェントの信頼性を評価するための2つの指標(一貫性と堅牢性)とベンチマーク(SimulateBench)を紹介する。私たちはエージェントを見つける (i)長大なプロファイル入力で提示された文字情報を正確に描写するのに苦労すること。 (二)プロファイルの乱れに対する脆弱性、及び (iii)は、その全体の信頼性に影響を与える重要な要因に大きく影響される。 CodeとSimulateBenchはhttps://github.com/GAIR-NLP/GPTManで公開されている。

関連論文リスト

Can LLMs Simulate Personas with Reversed Performance? A Benchmark for Counterfactual Instruction Following [12.668201122427101]
大規模言語モデル(LLM)は、仮想環境におけるペルソナのシミュレートに広く使われている。現状のLLMでさえ、逆性能のペルソナをシミュレートできないことを示す。
論文参考訳（メタデータ） (2025-04-08T22:00:32Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
LLM Agents That Act Like Us: Accurate Human Behavior Simulation with Real-World Data [26.506531028553795]
近年の研究では、LSMは人間の行動をシミュレートして、プロンプトのみの手法でLSMエージェントに電力を供給できることが示されている。我々は Web アクション生成タスクにおいて,主観的信頼性よりも LLM の客観的精度を評価することに注力する。本稿では,Web アクション生成タスクにおける最先端 LLM の総合的定量的評価について述べる。
論文参考訳（メタデータ） (2025-03-26T17:33:27Z)
How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.713599131902566]
本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。 BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
論文参考訳（メタデータ） (2025-02-20T15:29:32Z)
Social Science Meets LLMs: How Reliable Are Large Language Models in Social Simulations? [40.00556764679785]
大きな言語モデル(LLM)は、ロールプレイングエージェントやコンピュータ社会科学(CSS)の応用を可能にするシミュレーションにますます採用されている。本稿では,LLMに基づくシミュレーションはどの程度信頼性が高いか?」と答える。
論文参考訳（メタデータ） (2024-10-30T20:09:37Z)
Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.4999444543328293]
学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文参考訳（メタデータ） (2024-10-03T00:25:40Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-02-06T14:51:55Z)
Psychometric Predictive Power of Large Language Models [32.31556074470733]
命令チューニングは、認知モデルの観点から、必ずしも人間のような大きな言語モデルを作るとは限らない。命令調整 LLM で推定される次の単語確率は、基本 LLM で推定されるものよりも、人間の読み動作をシミュレートする場合には、しばしば悪化する。
論文参考訳（メタデータ） (2023-11-13T17:19:14Z)
CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations [61.9212914612875]
本研究では,LLMシミュレーションを4次元(コンテキスト,モデル,ペルソナ,トピック)で特徴付けるフレームワークを提案する。我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。 GPT-4では、特定の人口動態(政治的・疎外化グループ)と話題(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。
論文参考訳（メタデータ） (2023-10-17T18:00:25Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。