論文の概要: Good things come in three: Generating SO Post Titles with Pre-Trained Models, Self Improvement and Post Ranking
- arxiv url: http://arxiv.org/abs/2406.15633v1
- Date: Fri, 21 Jun 2024 20:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 21:24:18.071941
- Title: Good things come in three: Generating SO Post Titles with Pre-Trained Models, Self Improvement and Post Ranking
- Title(参考訳): 良い点が3つある: 事前学習モデルによるSOポストタイトルの生成、自己改善とポストランク付け
- Authors: Duc Anh Le, Anh M. T. Bui, Phuong T. Nguyen, Davide Di Ruscio,
- Abstract要約: Stack Overflowは著名なQとAフォーラムであり、開発者がプログラミング関連の問題に適切なリソースを求めるのをサポートする。
高品質な質問タイトルを持つことは、開発者の注意を引き付ける効果的な手段である。
主にトレーニング済みのモデルを活用して、コードスニペットや問題記述からタイトルを生成する研究が行われている。
自己改善とポストランキングを備えた微調整言語モデルを用いて,Stack Overflowのポストタイトルを生成するソリューションとしてFILLERを提案する。
- 参考スコア(独自算出の注目度): 5.874782446136913
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stack Overflow is a prominent Q and A forum, supporting developers in seeking suitable resources on programming-related matters. Having high-quality question titles is an effective means to attract developers' attention. Unfortunately, this is often underestimated, leaving room for improvement. Research has been conducted, predominantly leveraging pre-trained models to generate titles from code snippets and problem descriptions. Yet, getting high-quality titles is still a challenging task, attributed to both the quality of the input data (e.g., containing noise and ambiguity) and inherent constraints in sequence generation models. In this paper, we present FILLER as a solution to generating Stack Overflow post titles using a fine-tuned language model with self-improvement and post ranking. Our study focuses on enhancing pre-trained language models for generating titles for Stack Overflow posts, employing a training and subsequent fine-tuning paradigm for these models. To this end, we integrate the model's predictions into the training process, enabling it to learn from its errors, thereby lessening the effects of exposure bias. Moreover, we apply a post-ranking method to produce a variety of sample candidates, subsequently selecting the most suitable one. To evaluate FILLER, we perform experiments using benchmark datasets, and the empirical findings indicate that our model provides high-quality recommendations. Moreover, it significantly outperforms all the baselines, including Code2Que, SOTitle, CCBERT, M3NSCT5, and GPT3.5-turbo. A user study also shows that FILLER provides more relevant titles, with respect to SOTitle and GPT3.5-turbo.
- Abstract(参考訳): Stack Overflowは著名なQとAフォーラムであり、開発者がプログラミング関連の問題に適切なリソースを求めるのをサポートする。
高品質な質問タイトルを持つことは、開発者の注意を引き付ける効果的な手段である。
残念ながら、これはしばしば過小評価され、改善の余地を残します。
主にトレーニング済みのモデルを活用して、コードスニペットや問題記述からタイトルを生成する研究が行われている。
しかし、高品質なタイトルを取得することは依然として難しい課題であり、入力データの品質(例えば、ノイズと曖昧さを含む)とシーケンス生成モデル固有の制約の両方に起因する。
本稿では、自己改善とポストランキングを備えた微調整言語モデルを用いて、Stack Overflowポストタイトルを生成するソリューションとしてFILLERを提案する。
本研究は,Stack Overflowポストのタイトル生成のための事前学習言語モデルの強化と,これらのモデルに対するトレーニングおよびその後の微調整パラダイムの利用に焦点を当てた。
この目的のために、モデルの予測をトレーニングプロセスに統合し、エラーから学習できるようにし、露光バイアスの影響を減らす。
さらに, 各種サンプル候補の作成にポストグレード法を適用し, 続いて最も適した候補を選択する。
FILLERを評価するために、ベンチマークデータセットを用いて実験を行い、実験結果から、我々のモデルが高品質なレコメンデーションを提供することを示す。
さらに、Code2Que、SOTitle、CCBERT、M3NSCT5、GPT3.5-turboなど、すべてのベースラインを著しく上回る。
ユーザ調査によると、FILLERはSOTitleやGPT3.5-turboに関して、より関連性の高いタイトルを提供している。
関連論文リスト
- Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Automatic Bi-modal Question Title Generation for Stack Overflow with
Prompt Learning [10.76882347665857]
最初の研究は、質問本体のコードスニペットだけを分析してタイトルを自動的に生成することを目的としていた。
本稿では,問題本体のバイモーダル情報(コードスニペットと問題記述)を考慮し,SOTitle+のアプローチを提案する。
私たちのコーパスには、人気のある6つのプログラミング言語に対する179,119の質の高い質問投稿が含まれています。
論文 参考訳(メタデータ) (2024-03-06T12:58:25Z) - Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4
Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation [29.225823214788477]
本稿では,人間の教師型プログラミングヒントの提供における生成型AIモデルの役割について検討する。
最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っている。
我々はGPT4Hints-GPT3.5Valという新しい手法を開発し、生成AIモデルの限界を推し進める。
論文 参考訳(メタデータ) (2023-10-05T17:02:59Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Representation Learning for Stack Overflow Posts: How Far are We? [14.520780251680586]
最先端のStack Overflowポスト表現モデルはPost2VecとBERTOverflowである。
有望な結果にもかかわらず、これらの表現法は同じ実験環境では評価されていない。
本稿では,SOBERTを提案する。
論文 参考訳(メタデータ) (2023-03-13T04:49:06Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Diverse Title Generation for Stack Overflow Posts with Multiple Sampling
Enhanced Transformer [11.03785369838242]
与えられたコードスニペットから複数のポストタイトルを自動的に生成する新しい手法であるM$_3$NSCT5を提案する。
M$_3$NSCT5は、言語理解に優れたトレーニング済みトランスフォーマーモデルであるCodeT5のバックボーンを使用している。
M$_3$NSCT5の有効性を検証するため、8つのプログラミング言語をカバーする890,000の質問ポストを持つ大規模データセットを構築した。
論文 参考訳(メタデータ) (2022-08-24T13:10:48Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。