論文の概要: An Approach for Auto Generation of Labeling Functions for Software Engineering Chatbots
- arxiv url: http://arxiv.org/abs/2410.07094v2
- Date: Thu, 17 Jul 2025 23:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.025543
- Title: An Approach for Auto Generation of Labeling Functions for Software Engineering Chatbots
- Title(参考訳): ソフトウェアエンジニアリングチャットボットにおけるラベリング関数の自動生成手法
- Authors: Ebube Alor, Ahmad Abdellatif, SayedHassan Khatoonabadi, Emad Shihab,
- Abstract要約: ラベル付きユーザクエリからパターンを抽出し,ラベル付け関数(LF)を自動的に生成する手法を提案する。
我々は,4つのSEデータセットに対するアプローチを評価し,生成したLFをラベル付けしたクエリに対して,NLUのトレーニングからの性能向上を評価する。
- 参考スコア(独自算出の注目度): 3.1911318265930944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software engineering (SE) chatbots are increasingly gaining attention for their role in enhancing development processes. At the core of chatbots are Natural Language Understanding platforms (NLUs), which enable them to comprehend user queries but require labeled data for training. However, acquiring such labeled data for SE chatbots is challenging due to the scarcity of high-quality datasets, as training requires specialized vocabulary and phrases not found in typical language datasets. Consequently, developers often resort to manually annotating user queries -- a time-consuming and resource-intensive process. Previous approaches require human intervention to generate rules, called labeling functions (LFs), that categorize queries based on specific patterns. To address this issue, we propose an approach to automatically generate LFs by extracting patterns from labeled user queries. We evaluate our approach on four SE datasets and measure performance improvement from training NLUs on queries labeled by the generated LFs. The generated LFs effectively label data with AUC scores up to 85.3% and NLU performance improvements up to 27.2%. Furthermore, our results show that the number of LFs affects labeling performance. We believe that our approach can save time and resources in labeling users' queries, allowing practitioners to focus on core chatbot functionalities rather than manually labeling queries.
- Abstract(参考訳): ソフトウェアエンジニアリング(SE)チャットボットは、開発プロセスの強化における役割に対して、ますます注目を集めている。
チャットボットの中核は自然言語理解プラットフォーム(NLU)で、ユーザクエリを理解できるが、トレーニングにはラベル付きデータが必要である。
しかし、SEチャットボットのラベル付きデータを取得することは、典型的な言語データセットには見られない特別な語彙とフレーズを必要とするため、高品質なデータセットが不足しているため、難しい。
その結果、開発者はしばしば、時間を要するリソース集約的なプロセスである、ユーザクエリを手動でアノテートする。
従来のアプローチでは、特定のパターンに基づいてクエリを分類するラベル付け関数(LF)と呼ばれるルールを生成するために人間が介入する必要がある。
この問題に対処するために,ラベル付きユーザクエリからパターンを抽出してLFを自動的に生成する手法を提案する。
我々は,4つのSEデータセットに対するアプローチを評価し,生成したLFをラベル付けしたクエリに対して,NLUのトレーニングからの性能向上を評価する。
生成されたLFはAUCのスコアを85.3%まで、NLUのパフォーマンスは27.2%まで改善した。
さらに,LFの数がラベル付け性能に影響を及ぼすことを示す。
当社のアプローチは,ユーザのクエリをラベル付けする際の時間とリソースを節約し,実践者がクエリを手作業でラベル付けするのではなく,チャットボットのコア機能に集中できるようにしている,と私たちは信じています。
関連論文リスト
- Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - Labels Generated by Large Language Model Helps Measuring People's Empathy in Vitro [9.536979155245026]
大規模言語モデル(LLM)は多くの分野に革命をもたらした。
本稿では,その生体内応用の可能性について考察する。
我々は、共感コンピューティングの新たな分野において、このアプローチを評価する。
論文 参考訳(メタデータ) (2025-01-01T01:06:58Z) - Seq2Seq Model-Based Chatbot with LSTM and Attention Mechanism for Enhanced User Interaction [1.937324318931008]
本研究では、注意機構とLong Short-Term Memory(LSTM)セルを組み込んだエンコーダデコーダアーキテクチャを備えたSeq2Seqモデルを提案する。
提案されているSeq2Seqモデルベースのロボットは、モロッコのドラア・タフィラレ(Draa-Tafilalet)にある観光セクター向けのデータセットで訓練され、検証され、テストされている。
論文 参考訳(メタデータ) (2024-12-27T23:50:54Z) - LLM-assisted Labeling Function Generation for Semantic Type Detection [5.938962712331031]
ラベル付け機能を利用した意味型検出のためのトレーニングデータのアノテートを支援するために弱い監視手法を提案する。
このプロセスの課題の1つは、データレイクテーブルデータセットの大量かつ低品質のため、ラベル付け関数を手作業で記述することの難しさである。
論文 参考訳(メタデータ) (2024-08-28T23:39:50Z) - Improving Ontology Requirements Engineering with OntoChat and Participatory Prompting [3.3241053483599563]
OREは主に、ドメインの専門家からユーザ要求を集めるために、インタビューや共同フォーラムのような手動の手法に依存しています。
Current OntoChatは,大規模な言語モデル(LLM)を使用してプロセスを合理化するための,ORE用のフレームワークを提供する。
本研究は,ユーザストーリのペルソナ,目標,シナリオ,サンプルデータ,データリソースの作成と精錬に重点を置いた,ユーザクエリに基づく事前定義されたプロンプトテンプレートを生成する。
論文 参考訳(メタデータ) (2024-08-09T19:21:14Z) - A Transformer-based Approach for Augmenting Software Engineering Chatbots Datasets [4.311626046942916]
ソフトウェアエンジニアリングデータセットを拡張するための自動トランスフォーマーベースのアプローチを提案する。
3つのソフトウェアエンジニアリングデータセットを用いて,拡張アプローチがRasa NLUの性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-16T17:48:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Deep Learning Based Amharic Chatbot for FAQs in Universities [0.0]
本稿では,アムハラ語の質問(FAQ)に頻繁に答えるモデルを提案する。
提案プログラムでは, トークン化, 停止語除去, ステーミングを用いて, アムハラ語入力文の分析と分類を行う。
このモデルはFacebook Messengerに統合され、Herokuサーバに24時間のアクセシビリティとしてデプロイされた。
論文 参考訳(メタデータ) (2024-01-26T18:37:21Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z) - From Words to Code: Harnessing Data for Program Synthesis from Natural
Language [12.665932954069476]
大規模言語モデル(LLM)が生成するプログラムをリランクする手法であるセマンティック・リグレードを導入する。
また,LLMが生成する試料を高温と低温の両方で混合する温度混合も導入した。
トップ1の精度は最大45%、トップ3の精度は34%向上した。
論文 参考訳(メタデータ) (2023-05-02T16:56:32Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - ATM: An Uncertainty-aware Active Self-training Framework for
Label-efficient Text Classification [13.881283744970979]
ATMは、ラベルのないデータを活用するために自己学習を利用する新しいフレームワークであり、特定のALアルゴリズムに依存しない。
我々はATMが最強のアクティブラーニングと自己学習ベースラインを上回り、ラベル効率を平均51.9%向上させることを実証した。
論文 参考訳(メタデータ) (2021-12-16T11:09:48Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。