Fugu-MT 論文翻訳(概要): Automated Assignment and Classification of Software Issues

論文の概要: Automated Assignment and Classification of Software Issues

arxiv url: http://arxiv.org/abs/2307.00009v1
Date: Sun, 18 Jun 2023 20:06:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-09 14:02:31.797156
Title: Automated Assignment and Classification of Software Issues
Title（参考訳）: ソフトウェア問題の自動割り当てと分類
Authors: B\"u\c{s}ra Tabak
Abstract要約: 本論文では,浅層学習のための言語機能セットを提案する。問題を、バグ、新機能、改善など、異なるクラスに分類するために、分類アプローチを採用しています。浅層手法のアンサンブルは問題割当で0.92、精度で0.90を達成するが、これは統計的に最先端のディープ言語モデルに匹敵するものである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Software issues contain units of work to fix, improve or create new threads during the development and facilitate communication among the team members. Assigning an issue to the most relevant team member and determining a category of an issue is a tedious and challenging task. Wrong classifications cause delays and rework in the project and trouble among the team members. This thesis proposes a set of carefully curated linguistic features for shallow machine learning methods and compares the performance of shallow and ensemble methods with deep language models. Unlike the state-of-the-art, we assign issues to four roles (designer, developer, tester, and leader) rather than to specific individuals or teams to contribute to the generality of our solution. We also consider the level of experience of the developers to reflect the industrial practices in our solution formulation. We employ a classification approach to categorize issues into distinct classes, namely bug, new feature, improvement, and other. Additionally, we endeavor to further classify bugs based on the specific type of modification required. We collect and annotate five industrial data sets from one of the top three global television producers to evaluate our proposal and compare it with deep language models. Our data sets contain 5324 issues in total. We show that an ensemble classifier of shallow techniques achieves 0.92 for issue assignment and 0.90 for issue classification in accuracy which is statistically comparable to the state-of-the-art deep language models. The contributions include the public sharing of five annotated industrial issue data sets, the development of a clear and comprehensive feature set, the introduction of a novel label set and the validation of the efficacy of an ensemble classifier of shallow machine learning techniques.
Abstract（参考訳）: ソフトウェアの問題には、開発中に新しいスレッドを修正、改善、作成するための作業単位が含まれ、チームメンバ間のコミュニケーションを容易にする。最も関係のあるチームメンバーにイシューを割り当てて、イシューのカテゴリを決定するのは、面倒で難しい作業です。間違った分類は、プロジェクトの遅延や再作業、チームメンバー間のトラブルを引き起こします。本論文は,浅層機械学習のための言語的特徴を注意深く整理し,浅層およびアンサンブル法の性能を深層言語モデルと比較するものである。 state-of-the-artとは異なり、私たちはソリューションの汎用性に貢献するために、特定の個人やチームではなく、4つの役割(設計者、開発者、テスター、リーダー)に問題を割り当てます。また、ソリューションの定式化における産業的プラクティスを反映した開発者の経験レベルも考えています。私たちは、問題をバグ、新機能、改善など、異なるクラスに分類する分類アプローチを採用しています。さらに、必要な修正の種類に基づいてバグをさらに分類する努力も行います。グローバルテレビプロデューサーの上位3社のうちの1社から5つの産業データセットを収集し,評価し,深層言語モデルと比較した。われわれのデータセットには5324の問題がある。浅い手法のアンサンブル分類器は問題割当ての0.92と、最先端のディープ言語モデルに統計的に匹敵する精度のイシュー分類の0.90を達成できることを示す。この貢献には、5つのアノテートされた産業問題データセットの公開共有、明確で包括的な特徴セットの開発、新しいラベルセットの導入、浅い機械学習技術のアンサンブル分類器の有効性の検証が含まれる。

関連論文リスト

CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
Mitigating Language Bias in Cross-Lingual Job Retrieval: A Recruitment Platform Perspective [5.620571080824661]
本稿では,複数コンポーネントを統合文エンコーダに共同学習するために,マルチタスク・デュアルエンコーダ・フレームワークを用いた統一文エンコーダを提案する。その結果,本手法はモデルサイズが小さいにもかかわらず,他の最先端モデルよりも優れていた。また,エンコーダの言語バイアスを評価するために,LBKL(Language Bias Kullback-Leibler Divergence)を提案する。
論文参考訳（メタデータ） (2025-02-05T14:38:56Z)
Class-Aware Contrastive Optimization for Imbalanced Text Classification [19.537124894139833]
クラス認識のコントラスト最適化とデノベーションオートエンコーダを組み合わせることで、不均衡なテキスト分類タスクにうまく取り組むことができることを示す。提案手法は,多種多様なテキストデータセットにおける顕著な性能向上を示す。
論文参考訳（メタデータ） (2024-10-29T16:34:08Z)
Improve Meta-learning for Few-Shot Text Classification with All You Can Acquire from the Tasks [10.556477506959888]
既存の手法は、しばしばサポートセットのサンプルから正確なクラスプロトタイプを描くのに困難に遭遇する。近年のアプローチでは、外部知識や事前訓練された言語モデルを組み込んでデータを拡張しようとするが、追加のリソースが必要になる。本稿では,タスク自体の情報を適切に活用した新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-10-14T12:47:11Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
A Comparative Study of Transformer-based Neural Text Representation Techniques on Bug Triaging [8.831760500324318]
我々は、バグトリアージのタスクにおいて、ファイントゥーントランスフォーマーベースの言語モデルに関する最初の調査の1つを提供している。 DeBERTaは、開発者とコンポーネントの割り当てのトリアージタスクの中で、最も効果的なテクニックです。
論文参考訳（メタデータ） (2023-10-10T18:09:32Z)
Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文参考訳（メタデータ） (2023-09-18T06:43:30Z)
Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (2023-03-13T14:09:53Z)
Improving Cross-task Generalization of Unified Table-to-text Models with Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文参考訳（メタデータ） (2022-12-17T02:20:14Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Knowledge-driven Data Construction for Zero-shot Evaluation in Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文参考訳（メタデータ） (2020-11-07T22:52:21Z)
Representation Learning from Limited Educational Data with Crowdsourced Labels [45.44620098891902]
本稿では,クラウドソースラベルを用いた限られたデータから効率的な表現を学習することを目的とした,新しいフレームワークを提案する。具体的には、グループ化に基づくディープニューラルネットワークを設計し、限られた数のトレーニングサンプルから埋め込みを学習する。本研究では,モデルが誤分類したトレーニング例を適応的に選択するハードサンプル選択手法を開発した。
論文参考訳（メタデータ） (2020-09-23T15:34:40Z)
Improving Segmentation for Technical Support Problems [12.982941756429952]
技術的支援の問題はしばしば長く複雑である。それらは通常、問題のユーザ記述、設定、解決を試みるステップを含む。これらの要素は、問題解決のための潜在的に重要な情報を含んでいる。しかし、それらは自然言語用に設計されたツールによって正しく解析することはできない。
論文参考訳（メタデータ） (2020-05-22T08:29:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。