論文の概要: Labeling questions inside issue trackers
- arxiv url: http://arxiv.org/abs/2412.04523v1
- Date: Thu, 05 Dec 2024 15:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:48.390965
- Title: Labeling questions inside issue trackers
- Title(参考訳): 問題トラッカー内の質問のラベル付け
- Authors: Aidin Rasti,
- Abstract要約: StackOverflowのような適切なQAサイトを使う代わりに、問題トラッカーに問題について質問をする人が多い。
我々は無関係な質問を自動的にラベル付けするために分類に基づくアプローチを実装した。
102,000レコード以上のデータセットに対する実証的な評価は、我々の手法が81%以上の精度で質問をラベル付けできることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: One of the issues faced by the maintainers of popular open source software is the triage of newly reported issues. Many of the issues submitted to issue trackers are questions. Many people ask questions on issue trackers about their problem instead of using a proper QA website like StackOverflow. This may seem insignificant but for many of the big projects with thousands of users, this leads to spamming of the issue tracker. Reading and labeling these unrelated issues manually is a serious time consuming task and these unrelated questions add to the burden. In fact, most often maintainers demand to not submit questions in the issue tracker. To address this problem, first, we leveraged dozens of patterns to clean text of issues, we removed noises like logs, stack traces, environment variables, error messages, etc. Second, we have implemented a classification-based approach to automatically label unrelated questions. Empirical evaluations on a dataset of more than 102,000 records show that our approach can label questions with an accuracy of over 81%.
- Abstract(参考訳): 人気のあるオープンソースソフトウェアのメンテナが直面している問題の1つは、新しく報告された問題のトリアージである。
発行トラッカーに提出される問題の多くは質問である。
StackOverflowのような適切なQAサイトを使う代わりに、問題トラッカーに問題について質問をする人が多い。
これは重要でないように思えるかもしれないが、何千ものユーザーがいる大規模なプロジェクトの多くが、問題トラッカーのスパムに繋がる。
これらの無関係な問題を手動で読み、ラベル付けすることは、タスクに深刻な時間を費やすことであり、これらの無関係な質問は負担を増す。
実際、多くの場合、メンテナはイシュートラッカに質問を提出しないよう要求する。
この問題に対処するために、まずは数十のパターンを活用して問題のテキストをきれいにし、ログやスタックトレース、環境変数、エラーメッセージなどのノイズを取り除きました。
第2に,無関係な質問を自動的にラベル付けする分類に基づく手法を実装した。
102,000レコード以上のデータセットに対する実証的な評価は、我々の手法が81%以上の精度で質問をラベル付けできることを示している。
関連論文リスト
- Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - Software Engineers' Questions and Answers on Stack Exchange [0.0]
我々は、幅広い領域を含むSoftware Engineering Stack Exchangeサイトの質問と回答を分析します。
質問された質問は、データベースシステム、品質保証、アジャイルソフトウェア開発に最もよく関連していることがわかった。
最も魅力的なトピックはキャリアとチームワークの問題であり、最も魅力的なトピックはネットワークプログラミングとソフトウェアモデリングだった。
論文 参考訳(メタデータ) (2023-06-20T13:39:49Z) - Automatic Issue Classifier: A Transfer Learning Framework for
Classifying Issue Reports [0.0]
私たちはRoBERTaと呼ばれる既製のニューラルネットワークを使って、問題を分類しています。
本稿では,問題レポートを複数ラベル設定で分類するアプローチを提案する。我々はRoBERTaと呼ばれる市販のニューラルネットワークを用いて,問題レポートの分類を行う。
論文 参考訳(メタデータ) (2022-02-12T21:43:08Z) - On the Feasibility of Predicting Questions being Forgotten in Stack
Overflow [1.9403536652499676]
新しい技術、技術機能、および技術バージョンに関する疑問が持ち上がり、技術が進化するにつれて答える必要がある。
同時に、他の質問は時間とともに重要視されなくなり、最終的にユーザにとって無関係になる。
質問は、Stack Overflowのコンテンツを簡潔かつ有用に保つための重要なステップです。
論文 参考訳(メタデータ) (2021-10-29T15:59:11Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Can I Solve It? Identifying APIs Required to Complete OSS Task [16.13269535068818]
タスク完了に必要なAPIのドメインに対するラベリング問題の実現可能性と関連性を検討する。
問題の記述とプロジェクト履歴を利用して予測モデルを構築し,精度を最大82%まで向上させ,最大97.8%をリコールした。
私たちの結果は、問題を自動的にラベル付けするツールの作成を刺激し、開発者がスキルに合致するタスクを見つけるのに役立ちます。
論文 参考訳(メタデータ) (2021-03-23T16:16:09Z) - Attention-based model for predicting question relatedness on Stack
Overflow [0.0]
Stack Overflowにおける質問間の関連性を自動的に予測するアテンションベースの文対相互作用モデル(ASIM)を提案する。
ASIMは、Precision、Recall、Micro-F1評価メトリクスのベースラインアプローチを大幅に改善しました。
私たちのモデルは、Ask Ubuntuの重複質問検出タスクでもうまく機能します。
論文 参考訳(メタデータ) (2021-03-19T12:18:03Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - What Are People Asking About COVID-19? A Question Classification Dataset [56.609360198598914]
13のソースから1,690件のCOVID-19に関する質問の集合であるCOVID-Qを提示する。
われわれのデータセットで最も一般的な質問は、COVID-19の感染、予防、社会的影響についてだった。
複数のソースに現れた多くの質問は、CDCやFDAのような信頼できる組織のFAQのウェブサイトでは答えられませんでした。
論文 参考訳(メタデータ) (2020-05-26T05:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。