論文の概要: Benchmarking LLM powered Chatbots: Methods and Metrics
- arxiv url: http://arxiv.org/abs/2308.04624v1
- Date: Tue, 8 Aug 2023 23:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:40:47.636191
- Title: Benchmarking LLM powered Chatbots: Methods and Metrics
- Title(参考訳): LLMを利用したチャットボットのベンチマーク:方法とメトリクス
- Authors: Debarag Banerjee, Pooja Singh, Arjun Avadhanam, Saksham Srivastava
- Abstract要約: 我々はE2E(End to End)ベンチマークと呼ばれる新しいベンチマークを提案する。
E2Eベンチマークを用いて,チャットボットによる回答の精度と有用性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous conversational agents, i.e. chatbots, are becoming an increasingly
common mechanism for enterprises to provide support to customers and partners.
In order to rate chatbots, especially ones powered by Generative AI tools like
Large Language Models (LLMs) we need to be able to accurately assess their
performance. This is where chatbot benchmarking becomes important. In this
paper, we propose the use of a novel benchmark that we call the E2E (End to
End) benchmark, and show how the E2E benchmark can be used to evaluate accuracy
and usefulness of the answers provided by chatbots, especially ones powered by
LLMs. We evaluate an example chatbot at different levels of sophistication
based on both our E2E benchmark, as well as other available metrics commonly
used in the state of art, and observe that the proposed benchmark show better
results compared to others. In addition, while some metrics proved to be
unpredictable, the metric associated with the E2E benchmark, which uses cosine
similarity performed well in evaluating chatbots. The performance of our best
models shows that there are several benefits of using the cosine similarity
score as a metric in the E2E benchmark.
- Abstract(参考訳): 自律的な会話エージェント、すなわちチャットボットは、企業が顧客やパートナーにサポートを提供するための一般的なメカニズムになりつつある。
チャットボット、特にLarge Language Models (LLMs)のようなジェネレーティブAIツールを活用するものを評価するためには、パフォーマンスを正確に評価する必要がある。
ここでチャットボットのベンチマークが重要になる。
本稿では,e2e(end to end)ベンチマークと呼ばれる新しいベンチマークの利用を提案し,チャットボット,特にllmsによる回答の正確性と有用性を評価するためにe2eベンチマークをどのように利用できるかを示す。
我々は,E2Eベンチマークと,技術状況で一般的に使用されている他のメトリクスの両方に基づいて,さまざまなレベルの高度度でチャットボットの例を評価し,提案したベンチマークが他と比較して優れた結果を示すことを観察した。
さらに、いくつかのメトリクスは予測不可能であることが判明したが、チャットボットの評価においてコサインの類似性を利用したE2Eベンチマークに関連するメトリクスは良好に動作した。
ベストモデルの性能は,コサイン類似度スコアを指標としてE2Eベンチマークにいくつかの利点があることを示している。
関連論文リスト
- Project MPG: towards a generalized performance benchmark for LLM capabilities [4.348365973413145]
本稿では,ベンチマークの一般的な空間にまたがって性能を集約する手法を提案する。
私たちは2つの数字を作成します: "Goodness" 番号(回答精度)と "Fastness" 番号(コストまたはQPS)。
スコアの生の相関とピアソン・アリーナの相関は有意な一致を示した。
論文 参考訳(メタデータ) (2024-10-28T21:25:37Z) - Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。
我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文 参考訳(メタデータ) (2024-07-18T17:00:23Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation [160.07938471250048]
解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
我々は,参照ベース要約評価のための高性能自動メトリクスを開発する。
論文 参考訳(メタデータ) (2023-03-07T02:49:50Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - MENLI: Robust Evaluation Metrics from Natural Language Inference [26.53850343633923]
最近提案されたBERTベースのテキスト生成評価指標は、標準ベンチマークでは良好に機能するが、敵攻撃には弱い。
自然言語推論(NLI)に基づく評価指標を開発する。
我々のNLIベースのメトリクスは、最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-08-15T16:30:14Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。