論文の概要: Developing a Llama-Based Chatbot for CI/CD Question Answering: A Case Study at Ericsson
- arxiv url: http://arxiv.org/abs/2408.09277v1
- Date: Sat, 17 Aug 2024 19:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:29:47.452648
- Title: Developing a Llama-Based Chatbot for CI/CD Question Answering: A Case Study at Ericsson
- Title(参考訳): Llama-based Chatbot for CI/CD Question Answering の開発: Ericsson のケーススタディ
- Authors: Daksh Chaudhary, Sri Lakshmi Vadlamani, Dimple Thomas, Shiva Nejati, Mehrdad Sabetzadeh,
- Abstract要約: 我々はEricssonの継続的インテグレーションと継続的デリバリ(CI/CD)に関する質問に答えるLlamaベースのロボットを開発した。
BM25と埋め込みレトリバーを組み合わせたアンサンブルレトリバーは、最高の性能を得る。
私たちの最も正確な構成は、61.11%の質問に対して完全な正解を提供し、26.39%の回答を部分的に正解し、12.50%の誤解を提供する。
- 参考スコア(独自算出の注目度): 3.9849139646643064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our experience developing a Llama-based chatbot for question answering about continuous integration and continuous delivery (CI/CD) at Ericsson, a multinational telecommunications company. Our chatbot is designed to handle the specificities of CI/CD documents at Ericsson, employing a retrieval-augmented generation (RAG) model to enhance accuracy and relevance. Our empirical evaluation of the chatbot on industrial CI/CD-related questions indicates that an ensemble retriever, combining BM25 and embedding retrievers, yields the best performance. When evaluated against a ground truth of 72 CI/CD questions and answers at Ericsson, our most accurate chatbot configuration provides fully correct answers for 61.11% of the questions, partially correct answers for 26.39%, and incorrect answers for 12.50%. Through an error analysis of the partially correct and incorrect answers, we discuss the underlying causes of inaccuracies and provide insights for further refinement. We also reflect on lessons learned and suggest future directions for further improving our chatbot's accuracy.
- Abstract(参考訳): 本稿では,多国籍通信企業エリクソンにおいて,継続的インテグレーションと継続的デリバリ(CI/CD)に関する質問応答を行うLlamaベースのチャットボットを開発した経験について述べる。
我々のチャットボットは、エリクソンにおけるCI/CD文書の特異性を扱うように設計されており、精度と妥当性を高めるために、検索強化生成(RAG)モデルを採用している。
産業用CI/CD関連質問に対するチャットボットの実証評価により,BM25と組込みレトリバーを組み合わせたアンサンブルレトリバーが最高の性能を示した。
エリクソンにおける72のCI/CD質問と回答の基底的真実に対して評価すると、我々の最も正確なチャットボット構成は、61.11%の質問に対して完全な正解を提供し、26.39%の回答を部分的に正解し、12.50%の誤解を提供する。
部分的正解と誤解の誤り解析を通じて、不正確な原因を議論し、さらなる改善のための洞察を与える。
また、チャットボットの精度をさらに向上させるために、学習した教訓を反映し、今後の方向性を提案する。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文 参考訳(メタデータ) (2023-12-20T15:17:03Z) - HeySQuAD: A Spoken Question Answering Dataset [2.3881849082514153]
本研究では,HeySQuADと呼ばれる大規模コミュニティ共有SQAデータセットを提案する。
我々の目標は、機械が雑音の多い質問を正確に理解し、信頼できる回答を提供する能力を測定することである。
論文 参考訳(メタデータ) (2023-04-26T17:15:39Z) - chatClimate: Grounding Conversational AI in Climate Science [9.043032065867536]
大きな言語モデル(LLM)は、トレーニングフェーズ後の幻覚と時代遅れの情報という、2つの大きな課題に直面しています。
我々は,会話型AIのプロトタイプをwww.chatclimate.aiで公開し,課題に正確に答える能力を示す。
回答と情報源はIPCCの著者チームによって評価され、専門家の知識を用いて回答の精度を1(非常に低い)から5(非常に高い)に評価した。
論文 参考訳(メタデータ) (2023-04-11T21:31:39Z) - Search-Engine-augmented Dialogue Response Generation with Cheaply
Supervised Query Production [98.98161995555485]
応答生成のために,任意の検索エンジンから膨大な動的情報にアクセス可能な対話モデルを提案する。
コアモジュールとして、クエリプロデューサを使用して、対話コンテキストからクエリを生成して、検索エンジンと対話する。
R@1とR@5のレートを62.4%と74.8%で達成できることを示す実験を行った。
論文 参考訳(メタデータ) (2023-02-16T01:58:10Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - A Deep Learning Approach to Integrate Human-Level Understanding in a
Chatbot [0.4632366780742501]
人間とは異なり、チャットボットは一度に複数の顧客にサービスを提供し、24/7で提供され、1秒以内で返信できる。
深層学習を用いて感情分析,感情検出,意図分類,名義認識を行い,人文的理解と知性を備えたチャットボットを開発した。
論文 参考訳(メタデータ) (2021-12-31T22:26:41Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - Do not let the history haunt you -- Mitigating Compounding Errors in
Conversational Question Answering [17.36904526340775]
事前に予測された回答をテスト時に使用すると、複合的なエラーが発生する。
本研究では,目標解とモデル予測を動的に選択するサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2020-05-12T13:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。