論文の概要: A ML-LLM pairing for better code comment classification
- arxiv url: http://arxiv.org/abs/2310.10275v1
- Date: Fri, 13 Oct 2023 12:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:08:29.961961
- Title: A ML-LLM pairing for better code comment classification
- Title(参考訳): より良いコードコメント分類のためのML-LLMペアリング
- Authors: Hanna Abi Akl
- Abstract要約: コードコメント分類共有タスク課題に対して,2倍の評価を行うことで回答する。
私たちの最高のモデルは、共有タスクで2位となり、提供されたシードデータに対して、マクロF1スコアが88.401%のニューラルネットワークです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The "Information Retrieval in Software Engineering (IRSE)" at FIRE 2023
shared task introduces code comment classification, a challenging task that
pairs a code snippet with a comment that should be evaluated as either useful
or not useful to the understanding of the relevant code. We answer the code
comment classification shared task challenge by providing a two-fold
evaluation: from an algorithmic perspective, we compare the performance of
classical machine learning systems and complement our evaluations from a
data-driven perspective by generating additional data with the help of large
language model (LLM) prompting to measure the potential increase in
performance. Our best model, which took second place in the shared task, is a
Neural Network with a Macro-F1 score of 88.401% on the provided seed data and a
1.5% overall increase in performance on the data generated by the LLM.
- Abstract(参考訳): FIRE 2023の共有タスクである"Information Retrieval in Software Engineering (IRSE)"では、コードコメントの分類を導入している。
アルゴリズムの観点から、従来の機械学習システムの性能を比較し、データ駆動の観点から評価を補完し、大きな言語モデル(LLM)の助けを借りてデータを生成する。
我々の最良のモデルは、共有タスクで2位となり、提供されたシードデータに対してマクロF1スコアが88.401%、LLMが生成したデータに対する全体的なパフォーマンスが1.5%向上したニューラルネットワークです。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。
本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。
我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文 参考訳(メタデータ) (2024-02-29T18:59:17Z) - NeSy is alive and well: A LLM-driven symbolic approach for better code comment data generation and classification [0.0]
我々は,C言語におけるコードコメント分類のための合成データを生成するために,記号ベース学習技術と大言語モデル(LLM)エージェントを組み合わせたニューラルシンボリック(NeSy)ワークフローを提案する。
我々の最良のモデルであるニューラルネットワークは、データ拡張後の1.033%の増加でマクロF1スコアが91.412%に達する。
論文 参考訳(メタデータ) (2024-02-25T13:20:13Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - A study of the impact of generative AI-based data augmentation on
software metadata classification [1.1356542363919058]
我々は、コメントとその対応するコードについて、ニューラルネットワークによる文脈表現を用いて機械学習モデルをトレーニングし、コード・コメンデーション・ペアの有用性を予測する。
公式評価では, ベースラインからF1スコアが4%増加し, 生成データの品質が向上した。
論文 参考訳(メタデータ) (2023-10-14T10:47:10Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z) - DisCoDisCo at the DISRPT2021 Shared Task: A System for Discourse
Segmentation, Classification, and Connective Detection [4.371388370559826]
我々のシステムはDisCoDisCoと呼ばれ、コンテキスト化された単語の埋め込みを手作りの機能で強化する。
関係分類の結果は、新しい2021ベンチマークで強い性能を示している。
複数の事前学習されたトランスフォーマーベース言語モデルの部分評価は、Next Sentence Predictionタスクで事前学習されたモデルが関係分類に最適であることを示している。
論文 参考訳(メタデータ) (2021-09-20T18:11:05Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。