論文の概要: Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities
- arxiv url: http://arxiv.org/abs/2403.11128v2
- Date: Wed, 27 Mar 2024 15:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:34:33.707164
- Title: Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities
- Title(参考訳): 静的評価を超えて - AIアシスタントのAPI呼び出し能力を評価するための動的アプローチ
- Authors: Honglin Mu, Yang Xu, Yunlong Feng, Xiaofeng Han, Yitong Li, Yutai Hou, Wanxiang Che,
- Abstract要約: 人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
- 参考スコア(独自算出の注目度): 48.922660354417204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of Large Language Models (LLMs), AI assistants' ability to utilize tools, especially through API calls, has advanced notably. This progress has necessitated more accurate evaluation methods. Many existing studies adopt static evaluation, where they assess AI assistants' API call based on pre-defined dialogue histories. However, such evaluation method can be misleading, as an AI assistant might fail in generating API calls from preceding human interaction in real cases. Instead of the resource-intensive method of direct human-machine interactions, we propose Automated Dynamic Evaluation (AutoDE) to assess an assistant's API call capability without human involvement. In our framework, we endeavor to closely mirror genuine human conversation patterns in human-machine interactions, using a LLM-based user agent, equipped with a user script to ensure human alignment. Experimental results highlight that AutoDE uncovers errors overlooked by static evaluations, aligning more closely with human assessment. Testing four AI assistants using our crafted benchmark, our method further mirrored human evaluation compared to conventional static evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭により、AIアシスタントが特にAPIコールを通じてツールを利用する能力は顕著に進歩した。
この進歩はより正確な評価方法を必要としている。
既存の研究の多くは静的評価を採用しており、事前に定義された対話履歴に基づいてAIアシスタントのAPI呼び出しを評価する。
しかし、そのような評価手法は、AIアシスタントが実際のケースで先行する人間のインタラクションからAPIコールを生成するのに失敗する可能性があるため、誤解を招く可能性がある。
そこで本研究では,人的介在なしにアシスタントのAPIコール能力を評価するために,人間と機械の直接インタラクションの資源集約的な手法の代わりに,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
本フレームワークでは,LLMベースのユーザエージェントを用いて,人間と機械のインタラクションにおいて,人間の会話パターンを忠実に反映し,人間のアライメントを確保する。
実験の結果、AutoDEは静的評価によって見落とされたエラーを明らかにし、人間の評価とより密接に一致している。
提案手法は, 従来の静的評価と比較して, 人間の評価をさらに反映した。
関連論文リスト
- Simulating User Agents for Embodied Conversational-AI [9.402740034754455]
我々は,エンボディエージェントとのインタラクション中にユーザ動作をシミュレート可能な,LLMベースのユーザエージェントを構築した。
シミュレーション対話をTEAChデータセットと比較することにより,ユーザエージェントの人間的行動生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-31T00:56:08Z) - IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本研究では,対話型質問応答評価のための自動評価フレームワークIQA-EVALを導入する。
より具体的には, LLMに基づく評価エージェント(LEA)を導入し, 1) IQAモデルとのインタラクションを生成するための人間の振る舞いをシミュレートし, (2) 生成されたインタラクションを自動的に評価する。
本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文 参考訳(メタデータ) (2024-08-24T10:34:20Z) - The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches [0.0]
本稿では,LLMに基づく評価と人間の評価との関連性について論じる。
本稿では,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を提案する。
その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるか, より優れた洞察をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-06-05T14:55:10Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。