Fugu-MT 論文翻訳(概要): Improving Stack Overflow question title generation with copying enhanced CodeBERT model and bi-modal information

論文の概要: Improving Stack Overflow question title generation with copying enhanced CodeBERT model and bi-modal information

arxiv url: http://arxiv.org/abs/2109.13073v1
Date: Mon, 27 Sep 2021 14:23:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-28 21:06:06.188215
Title: Improving Stack Overflow question title generation with copying enhanced CodeBERT model and bi-modal information
Title（参考訳）: 拡張CodeBERTモデルとバイモーダル情報によるStack Overflow質問タイトル生成の改善
Authors: Fengji Zhang, Jacky Keung, Xiao Yu, Zhiwen Xie, Zhen Yang, Caoyuan Ma, Zhimin Zhang
Abstract要約: Stack Overflowの質問の数が増えているのは品質が低いため,潜在的な回答者からの注目は少なくなる。本稿では,質問題生成の性能を向上させるためのディープラーニングに基づく新しいモデルであるCCBERTを提案する。 Stack Overflowが公式に公開したデータから、12万以上の高品質な質問をフィルタリングしたデータセットを構築しています。
参考スコア（独自算出の注目度）: 7.887897269897447
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Context: Stack Overflow is very helpful for software developers who are seeking answers to programming problems. Previous studies have shown that a growing number of questions are of low-quality and thus obtain less attention from potential answerers. Gao et al. proposed a LSTM-based model (i.e., BiLSTM-CC) to automatically generate question titles from the code snippets to improve the question quality. However, only using the code snippets in question body cannot provide sufficient information for title generation, and LSTMs cannot capture the long-range dependencies between tokens. Objective: We propose CCBERT, a deep learning based novel model to enhance the performance of question title generation by making full use of the bi-modal information of the entire question body. Methods: CCBERT follows the encoder-decoder paradigm, and uses CodeBERT to encode the question body into hidden representations, a stacked Transformer decoder to generate predicted tokens, and an additional copy attention layer to refine the output distribution. Both the encoder and decoder perform the multi-head self-attention operation to better capture the long-range dependencies. We build a dataset containing more than 120,000 high-quality questions filtered from the data officially published by Stack Overflow to verify the effectiveness of the CCBERT model. Results: CCBERT achieves a better performance on the dataset, and especially outperforms BiLSTM-CC and a multi-purpose pre-trained model (BART) by 14% and 4% on average, respectively. Experiments on both code-only and low-resource datasets also show the superiority of CCBERT with less performance degradation, which are 40% and 13.5% for BiLSTM-CC, while 24% and 5% for CCBERT, respectively.
Abstract（参考訳）: コンテキスト: Stack Overflowは、プログラミング問題に対する答を求めているソフトウェア開発者にとって非常に役立ちます。従来の研究では、質問の増加は品質が低く、潜在的な回答者からの注意が少なくなることが示されている。 Gaoらは、コードスニペットから質問タイトルを自動的に生成し、質問品質を改善するLSTMベースのモデル(すなわちBiLSTM-CC)を提案した。しかし、問題本体でコードスニペットを使用するだけではタイトル生成に十分な情報を提供できず、LSTMはトークン間の長距離依存関係をキャプチャできない。目的: CCBERTは,質問本体全体のバイモーダル情報をフル活用することにより,質問タイトル生成の性能を高めるための,ディープラーニングベースの新規モデルである。メソッド: ccbertはエンコーダ・デコーダのパラダイムに従い、codebertを使って質問体を隠れた表現にエンコードし、スタック化されたトランスデコーダで予測されたトークンを生成し、さらにコピー注意層を追加して出力分布を洗練する。エンコーダとデコーダの両方がマルチヘッドセルフアテンション操作を実行し、長距離依存性をよりよく捉える。 stack overflowが公式に公開したデータから12万以上の高品質な質問をフィルタし,ccbertモデルの有効性を検証するデータセットを構築した。結果: CCBERTはデータセットのパフォーマンスが向上し,特にBiLSTM-CCと多目的事前学習モデル(BART)を平均14%,4%で上回っている。コードのみのデータセットと低リソースのデータセットの両方の実験では、パフォーマンス劣化の少ないCCBERTが40%と13.5%で、CCBERTはそれぞれ24%と5%である。

関連論文リスト

Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading [10.464772521284987]
近年、DeepSeek-R1 (671B) (DeepSeek-AIet al., 2025) は複雑なタスクにおいて優れた推論能力を示している。我々は,LLM-Adaptive Questiondifficultyレベルを用いた高品質なチェーン・オブ・シークレット(CoT)データを生成するための効率的な方法を模索する。我々は、データ生成のコストを大幅に削減し、教師付き微調整モデルの効率を向上した。
論文参考訳（メタデータ） (2025-04-16T09:55:34Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文参考訳（メタデータ） (2024-10-25T06:08:59Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise Attention and Gaussian Mixture Model [33.446533426654995]
我々は、BERTベースのCSCモデルを強化するために、異種知識注入フレームワークを設計する。複数層表現を生成するために,n-gram-based layerwise self-attention の新たな形式を提案する。実験の結果,提案手法は4つの強力なベースラインモデルに対して安定な性能向上をもたらすことがわかった。
論文参考訳（メタデータ） (2023-12-27T16:11:07Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文参考訳（メタデータ） (2023-10-10T15:33:51Z)
BioCoder: A Benchmark for Bioinformatics Code Generation with Large Language Models [27.772192759716116]
バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。 BioCoderは、ファイル間の依存関係、クラス宣言、グローバル変数を含む、フィールドの大部分にまたがる。本報告では, 包含コード全体の網羅範囲がバイオインフォマティクス計算の完全なスペクトルであることを示す。
論文参考訳（メタデータ） (2023-08-31T04:52:58Z)
Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。 USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文参考訳（メタデータ） (2022-01-18T07:17:40Z)
Semi-Siamese Bi-encoder Neural Ranking Model Using Lightweight Fine-Tuning [4.38301148531795]
BERTベースのバイエンコーダの性能向上のための2つの手法を示す。最初のアプローチは、完全な微調整のステップを軽量な微調整に置き換えることだ。第2のアプローチは、クエリとドキュメントを限定的な差分で処理するセミ・シームズモデルを開発することである。
論文参考訳（メタデータ） (2021-10-28T08:26:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。