Fugu-MT 論文翻訳(概要): The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches

論文の概要: The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches

arxiv url: http://arxiv.org/abs/2406.03339v1
Date: Wed, 5 Jun 2024 14:55:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 17:51:23.773927
Title: The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches
Title（参考訳）: LLMアプリケーション評価の課題:自動化,人間,LLMに基づくアプローチの分析
Authors: Bhashithe Abeysinghe, Ruhan Circi,
Abstract要約: 本稿では,LLMに基づく評価と人間の評価との関連性について論じる。本稿では,人間とLLMによる評価と併用可能な包括的因子評価機構を提案する。その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるか, より優れた洞察をもたらすことがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chatbots have been an interesting application of natural language generation since its inception. With novel transformer based Generative AI methods, building chatbots have become trivial. Chatbots which are targeted at specific domains such as medicine, psychology, and general information retrieval are implemented rapidly. This, however, should not distract from the need to evaluate the chatbot responses. Especially because the natural language generation community does not entirely agree upon how to effectively evaluate such applications. With this work we discuss the issue further with the increasingly popular LLM based evaluations and how they correlate with human evaluations. Additionally, we introduce a comprehensive factored evaluation mechanism that can be utilized in conjunction with both human and LLM-based evaluations. We present the results of an experimental evaluation conducted using this scheme in one of our chatbot implementations, and subsequently compare automated, traditional human evaluation, factored human evaluation, and factored LLM evaluation. Results show that factor based evaluation produces better insights on which aspects need to be improved in LLM applications and further strengthens the argument to use human evaluation in critical spaces where main functionality is not direct retrieval.
Abstract（参考訳）: チャットボットは、その誕生以来、自然言語生成の興味深い応用である。トランスフォーマーベースのジェネレーティブAIメソッドによって、チャットボットの構築は簡単になった。医学、心理学、一般情報検索などの特定の分野をターゲットにしたチャットボットを迅速に実装する。しかし、これはチャットボットの応答を評価する必要性に注意をそらすべきではない。特に、自然言語生成コミュニティは、そのようなアプリケーションを効果的に評価する方法に完全に合意していない。本研究では,LLMに基づく評価がますます普及し,人間による評価とどのように相関するかを論じる。さらに,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を導入する。本稿では,この方式をチャットボット実装の1つで行った実験結果について,自動化された従来の人的評価,ファクタリングされた人的評価,ファクタリングされたLDM評価を比較した。その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるのかをよりよく把握し, さらに, 主要な機能が直接検索されない重要な領域において, 人的評価を利用するための議論を強化することが示唆された。

関連論文リスト

First-Person Fairness in Chatbots [13.787745105316043]
第一対人公正性」を評価するためのスケーラブルな対実的アプローチを導入する。このアプローチを適用して、数百万のインタラクションにまたがる6つの言語モデルのバイアスを評価する。本研究は,実世界のチャットデータに基づく,初めての大規模公正度評価である。
論文参考訳（メタデータ） (2024-10-16T17:59:47Z)
On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation [8.672875654352689]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。本稿では,現在の評価ベンチマークを批判的に検討し,従来の応答生成器の使用と品質面が,現代のチャットボットの機能を正確に反映できないことを強調した。
論文参考訳（メタデータ） (2024-07-04T11:14:47Z)
Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文参考訳（メタデータ） (2024-03-17T07:34:12Z)
Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Learning and Evaluating Human Preferences for Conversational Head Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。 PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文参考訳（メタデータ） (2023-07-20T07:04:16Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。