論文の概要: An Approach for Auto Generation of Labeling Functions for Software Engineering Chatbots
- arxiv url: http://arxiv.org/abs/2410.07094v1
- Date: Wed, 9 Oct 2024 17:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:27:10.124824
- Title: An Approach for Auto Generation of Labeling Functions for Software Engineering Chatbots
- Title(参考訳): ソフトウェアエンジニアリングチャットボットにおけるラベリング関数の自動生成手法
- Authors: Ebube Alor, Ahmad Abdellatif, SayedHassan Khatoonabadi, Emad Shihab,
- Abstract要約: ラベル付きユーザクエリからパターンを抽出し,ラベル付け関数(LF)を自動的に生成する手法を提案する。
提案手法の有効性を,4種類のSEデータセットのクエリに適用することで評価する。
- 参考スコア(独自算出の注目度): 3.1911318265930944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software engineering (SE) chatbots are increasingly gaining attention for their role in enhancing development processes. At the core of chatbots are the Natural Language Understanding platforms (NLUs), which enable them to comprehend and respond to user queries. Before deploying NLUs, there is a need to train them with labeled data. However, acquiring such labeled data for SE chatbots is challenging due to the scarcity of high-quality datasets. This challenge arises because training SE chatbots requires specialized vocabulary and phrases not found in typical language datasets. Consequently, chatbot developers often resort to manually annotating user queries to gather the data necessary for training effective chatbots, a process that is both time-consuming and resource-intensive. Previous studies propose approaches to support chatbot practitioners in annotating users' posed queries. However, these approaches require human intervention to generate rules, called labeling functions (LFs), that identify and categorize user queries based on specific patterns in the data. To address this issue, we propose an approach to automatically generate LFs by extracting patterns from labeled user queries. We evaluate the effectiveness of our approach by applying it to the queries of four diverse SE datasets (namely AskGit, MSA, Ask Ubuntu, and Stack Overflow) and measure the performance improvement gained from training the NLU on the queries labeled by the generated LFs. We find that the generated LFs effectively label data with AUC scores of up to 85.3%, and NLU's performance improvement of up to 27.2% across the studied datasets. Furthermore, our results show that the number of LFs used to generate LFs affects the labeling performance. We believe that our approach can save time and resources in labeling users' queries, allowing practitioners to focus on core chatbot functionalities.
- Abstract(参考訳): ソフトウェアエンジニアリング(SE)チャットボットは、開発プロセスの強化における役割に対して、ますます注目を集めている。
チャットボットの中核は自然言語理解プラットフォーム(NLU)であり、ユーザクエリの理解と応答を可能にする。
NLUをデプロイする前には、ラベル付きデータでトレーニングする必要がある。
しかし、高品質なデータセットが不足しているため、SEチャットボットのラベル付きデータを取得することは困難である。
この課題は、SEチャットボットのトレーニングには、典型的な言語データセットにない特別な語彙とフレーズが必要であるためである。
その結果、チャットボット開発者は、しばしば、効果的なチャットボットのトレーニングに必要なデータを集めるために、手動でユーザークエリーをアノテートする。
従来の研究では、ユーザの提案したクエリに注釈をつける際に、チャットボットの実践者を支援するアプローチが提案されている。
しかしながら、これらのアプローチでは、データ内の特定のパターンに基づいてユーザクエリを識別し分類するラベル付け機能(LF)と呼ばれるルールを生成するための人間の介入が必要となる。
この問題に対処するために,ラベル付きユーザクエリからパターンを抽出してLFを自動的に生成する手法を提案する。
AskGit, MSA, Ask Ubuntu, Stack Overflowの4つのSEデータセットのクエリに適用することで, 提案手法の有効性を評価し, 生成したLFでラベル付けされたクエリに対して, NLUをトレーニングすることによって得られる性能改善を評価する。
生成されたLFは、AUCスコアが85.3%までのデータを効果的にラベル付けし、NLUのパフォーマンスは研究データセット全体で27.2%まで向上した。
さらに,LFの生成に使用するLFの数がラベル付け性能に影響を及ぼすことを示した。
当社のアプローチは,ユーザのクエリをラベル付けする際の時間とリソースを節約し,実践者がチャットボットのコア機能に集中できるようにするものだと考えています。
関連論文リスト
- Improving Ontology Requirements Engineering with OntoChat and Participatory Prompting [3.3241053483599563]
OREは主に、ドメインの専門家からユーザ要求を集めるために、インタビューや共同フォーラムのような手動の手法に依存しています。
Current OntoChatは,大規模な言語モデル(LLM)を使用してプロセスを合理化するための,ORE用のフレームワークを提供する。
本研究は,ユーザストーリのペルソナ,目標,シナリオ,サンプルデータ,データリソースの作成と精錬に重点を置いた,ユーザクエリに基づく事前定義されたプロンプトテンプレートを生成する。
論文 参考訳(メタデータ) (2024-08-09T19:21:14Z) - A Transformer-based Approach for Augmenting Software Engineering Chatbots Datasets [4.311626046942916]
ソフトウェアエンジニアリングデータセットを拡張するための自動トランスフォーマーベースのアプローチを提案する。
3つのソフトウェアエンジニアリングデータセットを用いて,拡張アプローチがRasa NLUの性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-16T17:48:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Deep Learning Based Amharic Chatbot for FAQs in Universities [0.0]
本稿では,アムハラ語の質問(FAQ)に頻繁に答えるモデルを提案する。
提案プログラムでは, トークン化, 停止語除去, ステーミングを用いて, アムハラ語入力文の分析と分類を行う。
このモデルはFacebook Messengerに統合され、Herokuサーバに24時間のアクセシビリティとしてデプロイされた。
論文 参考訳(メタデータ) (2024-01-26T18:37:21Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z) - From Words to Code: Harnessing Data for Program Synthesis from Natural
Language [12.665932954069476]
大規模言語モデル(LLM)が生成するプログラムをリランクする手法であるセマンティック・リグレードを導入する。
また,LLMが生成する試料を高温と低温の両方で混合する温度混合も導入した。
トップ1の精度は最大45%、トップ3の精度は34%向上した。
論文 参考訳(メタデータ) (2023-05-02T16:56:32Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。