論文の概要: How Far Are We from Believable AI Agents? A Framework for Evaluating the
Believability of Human Behavior Simulation
- arxiv url: http://arxiv.org/abs/2312.17115v1
- Date: Thu, 28 Dec 2023 16:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:36:11.781220
- Title: How Far Are We from Believable AI Agents? A Framework for Evaluating the
Believability of Human Behavior Simulation
- Title(参考訳): 信じられるAIエージェントからどこまで遠いのか?
人の行動シミュレーションの信頼性評価のための枠組み
- Authors: Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu
- Abstract要約: 我々は,AIエージェントの信頼性を評価するための2つの指標,一貫性と堅牢性,およびベンチマークであるSimulateBenchを紹介する。
エージェント (i) が長文入力を提示した場合の文字情報の正確な描写に苦慮していること, (ii) プロファイルの摂動に対する脆弱性を示すこと, (iii) 全体としての信頼性に影響を及ぼす重要な要因に大きく影響していること,などが判明した。
- 参考スコア(独自算出の注目度): 49.1914375451351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human behavior simulation of AI agents necessitates the agents to possess a
quality of believability, which is crucial as it facilitates users in
establishing trust toward the agents and streamlines the fulfillment of the
agents' goal. While recent advancements in Large Language Model (LLM) based
agents have improved human behavior simulation, challenges inherent to LLMs
(e.g., long context modeling) can undermine their believability. Consequently,
evaluating AI agent believability becomes imperative. Unfortunately, prior
research often neglects the negative impacts of LLM deficiencies. To address
these gaps, we introduce two metrics for assessing LLM-based agent
believability: consistency, and robustness, together with a benchmark,
SimulateBench, with which, we evaluate the consistency and robustness of agents
implemented with popular LLMs. We find that agents (i) struggle to accurately
depict character information when presented with lengthy profile inputs; (ii)
exhibit vulnerability to profile perturbations; and (iii) are significantly
affected by certain key factors that impact their overall believability. Code
and SimulateBench are public at https://github.com/GAIR-NLP/GPTMan.
- Abstract(参考訳): aiエージェントの人間の行動シミュレーションは、エージェントが信頼できる品質を持つ必要があるため、エージェントに対する信頼を確立し、エージェントの目標の達成を合理化する上で重要である。
近年のLarge Language Model (LLM) ベースのエージェントは人間の行動シミュレーションを改善しているが、LLM固有の課題(例えば、長期のコンテキストモデリング)は、その信頼性を損なう可能性がある。
これにより、AIエージェントの信頼性を評価することが必須となる。
残念ながら、先行研究はLLMの欠陥の負の影響を無視することが多い。
これらのギャップに対処するために、LLMベースのエージェントの信頼性を評価するための2つの指標(一貫性と堅牢性)とベンチマーク(SimulateBench)を紹介する。
私たちはエージェントを見つける
(i)長大なプロファイル入力で提示された文字情報を正確に描写するのに苦労すること。
(二)プロファイルの乱れに対する脆弱性、及び
(iii)は、その全体の信頼性に影響を与える重要な要因に大きく影響される。
CodeとSimulateBenchはhttps://github.com/GAIR-NLP/GPTManで公開されている。
関連論文リスト
- Can Large Language Model Agents Simulate Human Trust Behaviors? [75.69583811834073]
大規模言語モデル(LLM)エージェントは、社会科学などの応用において人間をモデル化するためのシミュレーションツールとして、ますます採用されている。
本稿では,人間同士のインタラクションや信頼の最も重要な行動の一つに焦点をあて,LLMエージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
論文 参考訳(メタデータ) (2024-02-07T03:37:19Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis [17.362895895214344]
大規模言語モデル(LLM)は、人間がクラウドインシデントの根本原因を特定するのに役立つ。
そこで本研究では,オンコール技術者がモデル予測を採用するかどうかの判断を支援するために,予測に対する信頼度推定を行うことを提案する。
提案手法は,推定された根本原因に対する校正された信頼度を推定し,検索した履歴データの有用性と促進戦略を検証できることを示す。
論文 参考訳(メタデータ) (2023-09-11T21:24:00Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。