論文の概要: A study of the impact of generative AI-based data augmentation on
software metadata classification
- arxiv url: http://arxiv.org/abs/2310.13714v1
- Date: Sat, 14 Oct 2023 10:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 15:56:53.909032
- Title: A study of the impact of generative AI-based data augmentation on
software metadata classification
- Title(参考訳): 生成AIに基づくデータ拡張がソフトウェアメタデータ分類に及ぼす影響に関する研究
- Authors: Tripti Kumari, Chakali Sai Charan and Ayan Das
- Abstract要約: 我々は、コメントとその対応するコードについて、ニューラルネットワークによる文脈表現を用いて機械学習モデルをトレーニングし、コード・コメンデーション・ペアの有用性を予測する。
公式評価では, ベースラインからF1スコアが4%増加し, 生成データの品質が向上した。
- 参考スコア(独自算出の注目度): 1.1356542363919058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the system submitted by the team from IIT(ISM) Dhanbad in
FIRE IRSE 2023 shared task 1 on the automatic usefulness prediction of
code-comment pairs as well as the impact of Large Language Model(LLM) generated
data on original base data towards an associated source code. We have developed
a framework where we train a machine learning-based model using the neural
contextual representations of the comments and their corresponding codes to
predict the usefulness of code-comments pair and performance analysis with
LLM-generated data with base data. In the official assessment, our system
achieves a 4% increase in F1-score from baseline and the quality of generated
data.
- Abstract(参考訳): 本稿では、FIRE IRSE 2023共有タスク1において、IIT(ISM) Dhanbadチームから提出されたシステムについて、コード・コンポジションペアの自動有用性予測と、関連するソースコードに対するLarge Language Model(LLM)生成データの影響について述べる。
本研究では,コメントとその対応コードのニューラル・コンテクスト表現を用いて,機械学習ベースのモデルを学習し,コードベースペアの有用性とベースデータを用いたllm生成データによるパフォーマンス解析を予測できるフレームワークを開発した。
公式評価では, ベースラインからF1スコアが4%増加し, 生成データの品質が向上した。
関連論文リスト
- iGAiVA: Integrated Generative AI and Visual Analytics in a Machine Learning Workflow for Text Classification [2.0094862015890245]
視覚分析(VA)を用いて,大規模言語モデルを用いた合成データの生成を誘導する手法を提案する。
本稿では,データ不足の種別について論じ,その識別を支援するVA技術について述べるとともに,対象データ合成の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-24T08:19:45Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - NeSy is alive and well: A LLM-driven symbolic approach for better code comment data generation and classification [0.0]
我々は,C言語におけるコードコメント分類のための合成データを生成するために,記号ベース学習技術と大言語モデル(LLM)エージェントを組み合わせたニューラルシンボリック(NeSy)ワークフローを提案する。
我々の最良のモデルであるニューラルネットワークは、データ拡張後の1.033%の増加でマクロF1スコアが91.412%に達する。
論文 参考訳(メタデータ) (2024-02-25T13:20:13Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - KAXAI: An Integrated Environment for Knowledge Analysis and Explainable
AI [0.0]
本稿では,AutoML,XAI,合成データ生成を統合したシステムの設計について述べる。
このシステムは、複雑度を抽象化し、高いユーザビリティを提供しながら、機械学習のパワーをナビゲートし活用することができる。
論文 参考訳(メタデータ) (2023-12-30T10:20:47Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - A ML-LLM pairing for better code comment classification [0.0]
コードコメント分類共有タスク課題に対して,2倍の評価を行うことで回答する。
私たちの最高のモデルは、共有タスクで2位となり、提供されたシードデータに対して、マクロF1スコアが88.401%のニューラルネットワークです。
論文 参考訳(メタデータ) (2023-10-13T12:43:13Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。