論文の概要: Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023
- arxiv url: http://arxiv.org/abs/2311.03374v1
- Date: Fri, 27 Oct 2023 14:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:30:57.797537
- Title: Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023
- Title(参考訳): ソフトウェアメタデータのための生成AI:FIRE 2023のソフトウェアエンジニアリングトラックにおける情報検索の概観
- Authors: Srijoni Majumdar, Soumen Paul, Debjyoti Paul, Ayan Bandyopadhyay,
Samiran Chattopadhyay, Partha Pratim Das, Paul D Clough, Prasenjit Majumder
- Abstract要約: Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
- 参考スコア(独自算出の注目度): 18.616716369775883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Information Retrieval in Software Engineering (IRSE) track aims to
develop solutions for automated evaluation of code comments in a machine
learning framework based on human and large language model generated labels. In
this track, there is a binary classification task to classify comments as
useful and not useful. The dataset consists of 9048 code comments and
surrounding code snippet pairs extracted from open source github C based
projects and an additional dataset generated individually by teams using large
language models. Overall 56 experiments have been submitted by 17 teams from
various universities and software companies. The submissions have been
evaluated quantitatively using the F1-Score and qualitatively based on the type
of features developed, the supervised learning model used and their
corresponding hyper-parameters. The labels generated from large language models
increase the bias in the prediction model but lead to less over-fitted results.
- Abstract(参考訳): ソフトウェア工学における情報検索(irse)トラックは、人間および大規模言語モデル生成ラベルに基づく機械学習フレームワークにおけるコードコメントの自動評価ソリューションの開発を目的としている。
このトラックでは、コメントを有用かつ役に立たない分類を行うバイナリ分類タスクがあります。
データセットは9048のコードコメントと、オープンソースのgithub cベースのプロジェクトから抽出されたコードスニペットペアと、大規模な言語モデルを使用してチームが個別に生成した追加データセットで構成されている。
56の実験は、様々な大学やソフトウェア企業から17チームが行った。
提案手法は,F1スコアを用いて定量的に評価され,開発した特徴の種類,使用した教師付き学習モデル,対応するハイパーパラメータに基づいて定性的に評価されている。
大きな言語モデルから生成されるラベルは、予測モデルのバイアスを増加させるが、過剰な結果をもたらす。
関連論文リスト
- GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文 参考訳(メタデータ) (2023-11-16T09:35:00Z) - Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code [24.936022005837415]
我々は、70以上のモデル、40以上の評価タスク、180以上のデータセット、900以上の関連する作業を含む、言語モデルによるソフトウェア工学の最近の進歩についてレビューする。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。
また、要件エンジニアリング、テスト、デプロイメント、オペレーションを含む他のソフトウェアエンジニアリング活動において、LCMのアプリケーションをプログラミングし、レビューする余地もあります。
論文 参考訳(メタデータ) (2023-11-14T08:34:26Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Software Metadata Classification based on Generative Artificial
Intelligence [0.0]
本稿では、生成人工知能(AI)を用いたバイナリコードコメント品質分類モデルの性能向上のための新しいアプローチを提案する。
OpenAI APIを活用することで、新たに生成した1239のコード補完ペアからなるデータセットを、“Useful”あるいは“Not Useful”とラベル付けした。
その結果,ソフトウェア開発分野や品質保証分野の幅広い文脈における適用性を示すとともに,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-14T07:38:16Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Software Entity Recognition with Noise-Robust Learning [31.259250137320468]
ウィキペディアの分類を利用して、12のきめ細かいタイプで79Kのユニークなソフトウェアエンティティを持つ包括的なエンティティ辞書を開発する。
そこで我々は,多くのドロップアウトを考慮に入れたソフトウェアエンティティ認識モデルのトレーニングに対して,ノイズローバスト学習手法である自己正規化を提案する。
その結果、自己正規化でトレーニングされたモデルは、私たちのWikipediaベンチマークと2つのStack Overflowベンチマークにおいて、バニラと最先端のアプローチの両方よりも優れています。
論文 参考訳(メタデータ) (2023-08-21T08:41:46Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。