論文の概要: Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop
- arxiv url: http://arxiv.org/abs/2407.05925v1
- Date: Mon, 8 Jul 2024 13:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:40:39.071248
- Title: Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop
- Title(参考訳): ループ型LLMを用いた検索付加型QAチャットボットの最適化と評価
- Authors: Anum Afzal, Alexander Kowsik, Rajna Fani, Florian Matthes,
- Abstract要約: 大規模言語モデルは、ヒューマンリソース(HR)のサポートを含む、日常的で反復的なタスクに応用されている。
我々は、従業員の質問に対処するための効率的かつ効果的なツールとして、人事支援チャットボットを開発した。
実験と評価の結果,GPT-4は他のモデルよりも優れており,データの矛盾を克服できることがわかった。
専門家分析により、G-Evalなどの基準フリー評価指標を推定し、信頼性が人間の評価と密接に一致していることを示す。
- 参考スコア(独自算出の注目度): 44.51779041553597
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models have found application in various mundane and repetitive tasks including Human Resource (HR) support. We worked with the domain experts of SAP SE to develop an HR support chatbot as an efficient and effective tool for addressing employee inquiries. We inserted a human-in-the-loop in various parts of the development cycles such as dataset collection, prompt optimization, and evaluation of generated output. By enhancing the LLM-driven chatbot's response quality and exploring alternative retrieval methods, we have created an efficient, scalable, and flexible tool for HR professionals to address employee inquiries effectively. Our experiments and evaluation conclude that GPT-4 outperforms other models and can overcome inconsistencies in data through internal reasoning capabilities. Additionally, through expert analysis, we infer that reference-free evaluation metrics such as G-Eval and Prometheus demonstrate reliability closely aligned with that of human evaluation.
- Abstract(参考訳): 大規模言語モデルは、ヒューマンリソース(HR)のサポートを含む様々な日常的かつ反復的なタスクに応用されている。
SAP SEのドメインエキスパートと協力して、従業員の問い合わせに対処するための効率的かつ効果的なツールとしてHRサポートチャットボットを開発しました。
我々は,データセット収集,迅速な最適化,生成した出力の評価など,開発サイクルのさまざまな部分にHuman-in-the-loopを挿入した。
LLM駆動のチャットボットの応答品質を高め、代替の検索方法を模索することで、HRの専門家が従業員の問い合わせに効果的に対応するための効率的でスケーラブルで柔軟なツールを作成しました。
実験と評価の結果、GPT-4は他のモデルよりも優れており、内部推論能力によってデータの矛盾を克服できることがわかった。
さらに、専門家分析により、G-EvalやPrometheusのような基準のない評価指標が人間の評価と密接に一致していることが推測される。
関連論文リスト
- BotEval: Facilitating Interactive Human Evaluation [21.99269491969255]
BotEvalは評価プロセスの一部として人間とボットのインタラクションを可能にする評価ツールキットである。
我々は、評価プロセスの一部として、人間とボットの対話を可能にすることに焦点を当てた、カスタマイズが容易でオープンソースの評価ツールキットBotEvalを開発した。
論文 参考訳(メタデータ) (2024-07-25T04:57:31Z) - The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches [0.0]
本稿では,LLMに基づく評価と人間の評価との関連性について論じる。
本稿では,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を提案する。
その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるか, より優れた洞察をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-06-05T14:55:10Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - Can AI Serve as a Substitute for Human Subjects in Software Engineering
Research? [24.39463126056733]
本稿では,人工知能(AI)の能力を活用したソフトウェア工学研究における定性データ収集手法を提案する。
定性的データの代替源としてAI生成合成テキストの可能性を探る。
観察研究とユーザ評価における人間の行動のエミュレートを目的とした新しい基礎モデルの開発について論じる。
論文 参考訳(メタデータ) (2023-11-18T14:05:52Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Harnessing the Power of Large Language Models for Empathetic Response
Generation: Empirical Investigations and Improvements [32.177860810612074]
本研究では,大規模言語モデル(LLM)の共感応答生成における性能について実験的に検討する。
大規模な実験により, LLMは提案手法の利点を大いに生かし, 自動評価と人的評価の両方で最先端の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-10-08T12:21:24Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。