論文の概要: Improving Stack Overflow question title generation with copying enhanced
CodeBERT model and bi-modal information
- arxiv url: http://arxiv.org/abs/2109.13073v1
- Date: Mon, 27 Sep 2021 14:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 21:06:06.188215
- Title: Improving Stack Overflow question title generation with copying enhanced
CodeBERT model and bi-modal information
- Title(参考訳): 拡張CodeBERTモデルとバイモーダル情報によるStack Overflow質問タイトル生成の改善
- Authors: Fengji Zhang, Jacky Keung, Xiao Yu, Zhiwen Xie, Zhen Yang, Caoyuan Ma,
Zhimin Zhang
- Abstract要約: Stack Overflowの質問の数が増えているのは品質が低いため,潜在的な回答者からの注目は少なくなる。
本稿では,質問題生成の性能を向上させるためのディープラーニングに基づく新しいモデルであるCCBERTを提案する。
Stack Overflowが公式に公開したデータから、12万以上の高品質な質問をフィルタリングしたデータセットを構築しています。
- 参考スコア(独自算出の注目度): 7.887897269897447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Stack Overflow is very helpful for software developers who are
seeking answers to programming problems. Previous studies have shown that a
growing number of questions are of low-quality and thus obtain less attention
from potential answerers. Gao et al. proposed a LSTM-based model (i.e.,
BiLSTM-CC) to automatically generate question titles from the code snippets to
improve the question quality. However, only using the code snippets in question
body cannot provide sufficient information for title generation, and LSTMs
cannot capture the long-range dependencies between tokens. Objective: We
propose CCBERT, a deep learning based novel model to enhance the performance of
question title generation by making full use of the bi-modal information of the
entire question body. Methods: CCBERT follows the encoder-decoder paradigm, and
uses CodeBERT to encode the question body into hidden representations, a
stacked Transformer decoder to generate predicted tokens, and an additional
copy attention layer to refine the output distribution. Both the encoder and
decoder perform the multi-head self-attention operation to better capture the
long-range dependencies. We build a dataset containing more than 120,000
high-quality questions filtered from the data officially published by Stack
Overflow to verify the effectiveness of the CCBERT model. Results: CCBERT
achieves a better performance on the dataset, and especially outperforms
BiLSTM-CC and a multi-purpose pre-trained model (BART) by 14% and 4% on
average, respectively. Experiments on both code-only and low-resource datasets
also show the superiority of CCBERT with less performance degradation, which
are 40% and 13.5% for BiLSTM-CC, while 24% and 5% for CCBERT, respectively.
- Abstract(参考訳): コンテキスト: Stack Overflowは、プログラミング問題に対する答を求めているソフトウェア開発者にとって非常に役立ちます。
従来の研究では、質問の増加は品質が低く、潜在的な回答者からの注意が少なくなることが示されている。
Gaoらは、コードスニペットから質問タイトルを自動的に生成し、質問品質を改善するLSTMベースのモデル(すなわちBiLSTM-CC)を提案した。
しかし、問題本体でコードスニペットを使用するだけではタイトル生成に十分な情報を提供できず、LSTMはトークン間の長距離依存関係をキャプチャできない。
目的: CCBERTは,質問本体全体のバイモーダル情報をフル活用することにより,質問タイトル生成の性能を高めるための,ディープラーニングベースの新規モデルである。
メソッド: ccbertはエンコーダ・デコーダのパラダイムに従い、codebertを使って質問体を隠れた表現にエンコードし、スタック化されたトランスデコーダで予測されたトークンを生成し、さらにコピー注意層を追加して出力分布を洗練する。
エンコーダとデコーダの両方がマルチヘッドセルフアテンション操作を実行し、長距離依存性をよりよく捉える。
stack overflowが公式に公開したデータから12万以上の高品質な質問をフィルタし,ccbertモデルの有効性を検証するデータセットを構築した。
結果: CCBERTはデータセットのパフォーマンスが向上し,特にBiLSTM-CCと多目的事前学習モデル(BART)を平均14%,4%で上回っている。
コードのみのデータセットと低リソースのデータセットの両方の実験では、パフォーマンス劣化の少ないCCBERTが40%と13.5%で、CCBERTはそれぞれ24%と5%である。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise
Attention and Gaussian Mixture Model [33.446533426654995]
我々は、BERTベースのCSCモデルを強化するために、異種知識注入フレームワークを設計する。
複数層表現を生成するために,n-gram-based layerwise self-attention の新たな形式を提案する。
実験の結果,提案手法は4つの強力なベースラインモデルに対して安定な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2023-12-27T16:11:07Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - BioCoder: A Benchmark for Bioinformatics Code Generation with Large Language Models [27.772192759716116]
バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。
BioCoderは、ファイル間の依存関係、クラス宣言、グローバル変数を含む、フィールドの大部分にまたがる。
本報告では, 包含コード全体の網羅範囲がバイオインフォマティクス計算の完全なスペクトルであることを示す。
論文 参考訳(メタデータ) (2023-08-31T04:52:58Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Semi-Siamese Bi-encoder Neural Ranking Model Using Lightweight
Fine-Tuning [4.38301148531795]
BERTベースのバイエンコーダの性能向上のための2つの手法を示す。
最初のアプローチは、完全な微調整のステップを軽量な微調整に置き換えることだ。
第2のアプローチは、クエリとドキュメントを限定的な差分で処理するセミ・シームズモデルを開発することである。
論文 参考訳(メタデータ) (2021-10-28T08:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。