論文の概要: Improving Stack Overflow question title generation with copying enhanced
CodeBERT model and bi-modal information
- arxiv url: http://arxiv.org/abs/2109.13073v1
- Date: Mon, 27 Sep 2021 14:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 21:06:06.188215
- Title: Improving Stack Overflow question title generation with copying enhanced
CodeBERT model and bi-modal information
- Title(参考訳): 拡張CodeBERTモデルとバイモーダル情報によるStack Overflow質問タイトル生成の改善
- Authors: Fengji Zhang, Jacky Keung, Xiao Yu, Zhiwen Xie, Zhen Yang, Caoyuan Ma,
Zhimin Zhang
- Abstract要約: Stack Overflowの質問の数が増えているのは品質が低いため,潜在的な回答者からの注目は少なくなる。
本稿では,質問題生成の性能を向上させるためのディープラーニングに基づく新しいモデルであるCCBERTを提案する。
Stack Overflowが公式に公開したデータから、12万以上の高品質な質問をフィルタリングしたデータセットを構築しています。
- 参考スコア(独自算出の注目度): 7.887897269897447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Stack Overflow is very helpful for software developers who are
seeking answers to programming problems. Previous studies have shown that a
growing number of questions are of low-quality and thus obtain less attention
from potential answerers. Gao et al. proposed a LSTM-based model (i.e.,
BiLSTM-CC) to automatically generate question titles from the code snippets to
improve the question quality. However, only using the code snippets in question
body cannot provide sufficient information for title generation, and LSTMs
cannot capture the long-range dependencies between tokens. Objective: We
propose CCBERT, a deep learning based novel model to enhance the performance of
question title generation by making full use of the bi-modal information of the
entire question body. Methods: CCBERT follows the encoder-decoder paradigm, and
uses CodeBERT to encode the question body into hidden representations, a
stacked Transformer decoder to generate predicted tokens, and an additional
copy attention layer to refine the output distribution. Both the encoder and
decoder perform the multi-head self-attention operation to better capture the
long-range dependencies. We build a dataset containing more than 120,000
high-quality questions filtered from the data officially published by Stack
Overflow to verify the effectiveness of the CCBERT model. Results: CCBERT
achieves a better performance on the dataset, and especially outperforms
BiLSTM-CC and a multi-purpose pre-trained model (BART) by 14% and 4% on
average, respectively. Experiments on both code-only and low-resource datasets
also show the superiority of CCBERT with less performance degradation, which
are 40% and 13.5% for BiLSTM-CC, while 24% and 5% for CCBERT, respectively.
- Abstract(参考訳): コンテキスト: Stack Overflowは、プログラミング問題に対する答を求めているソフトウェア開発者にとって非常に役立ちます。
従来の研究では、質問の増加は品質が低く、潜在的な回答者からの注意が少なくなることが示されている。
Gaoらは、コードスニペットから質問タイトルを自動的に生成し、質問品質を改善するLSTMベースのモデル(すなわちBiLSTM-CC)を提案した。
しかし、問題本体でコードスニペットを使用するだけではタイトル生成に十分な情報を提供できず、LSTMはトークン間の長距離依存関係をキャプチャできない。
目的: CCBERTは,質問本体全体のバイモーダル情報をフル活用することにより,質問タイトル生成の性能を高めるための,ディープラーニングベースの新規モデルである。
メソッド: ccbertはエンコーダ・デコーダのパラダイムに従い、codebertを使って質問体を隠れた表現にエンコードし、スタック化されたトランスデコーダで予測されたトークンを生成し、さらにコピー注意層を追加して出力分布を洗練する。
エンコーダとデコーダの両方がマルチヘッドセルフアテンション操作を実行し、長距離依存性をよりよく捉える。
stack overflowが公式に公開したデータから12万以上の高品質な質問をフィルタし,ccbertモデルの有効性を検証するデータセットを構築した。
結果: CCBERTはデータセットのパフォーマンスが向上し,特にBiLSTM-CCと多目的事前学習モデル(BART)を平均14%,4%で上回っている。
コードのみのデータセットと低リソースのデータセットの両方の実験では、パフォーマンス劣化の少ないCCBERTが40%と13.5%で、CCBERTはそれぞれ24%と5%である。
関連論文リスト
- Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise
Attention and Gaussian Mixture Model [33.446533426654995]
我々は、BERTベースのCSCモデルを強化するために、異種知識注入フレームワークを設計する。
複数層表現を生成するために,n-gram-based layerwise self-attention の新たな形式を提案する。
実験の結果,提案手法は4つの強力なベースラインモデルに対して安定な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2023-12-27T16:11:07Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Quality-Aware Translation Models: Efficient Generation and Quality
Estimation in a Single Model [80.52182596068464]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual
Pragmatic Knowledge [29.427854840949234]
バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。
BioCoderは、フィールドの幅広い範囲にまたがって、ファイル間の依存関係、クラス宣言、グローバル変数をカバーする。
モデルの成功は、機能的な依存関係に対して、完全なコンテキストで長いプロンプトを許容できることを示します。
論文 参考訳(メタデータ) (2023-08-31T04:52:58Z) - Factorizers for Distributed Sparse Block Codes [62.38616784953048]
分散ブロック符号(SBC)は、固定ベクトルを用いてシンボルデータ構造を符号化し、操作するためのコンパクトな表現を示す。
主要な課題の1つは、可能なすべての組み合わせを探索することなく、そのようなデータ構造を構成要素に切り離し、あるいは分解することである。
GSBCと呼ばれるより柔軟で一般化されたSBCを分解する高速かつ高精度な手法を提案する。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - cTBLS: Augmenting Large Language Models with Conversational Tables [0.76146285961466]
会話表(英語: Conversational Tables、cTBLS)は、検索した表情報に基づいて対話応答を検索して生成する3段階アーキテクチャである。
人間の評価者は、cTBLs+80%の時間(コヒーレンシー、流派)を好んでおり、以前の最先端よりも4倍良いと判断する。
論文 参考訳(メタデータ) (2023-03-21T17:04:44Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Semi-Siamese Bi-encoder Neural Ranking Model Using Lightweight
Fine-Tuning [4.38301148531795]
BERTベースのバイエンコーダの性能向上のための2つの手法を示す。
最初のアプローチは、完全な微調整のステップを軽量な微調整に置き換えることだ。
第2のアプローチは、クエリとドキュメントを限定的な差分で処理するセミ・シームズモデルを開発することである。
論文 参考訳(メタデータ) (2021-10-28T08:26:46Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。