論文の概要: Automatic Bi-modal Question Title Generation for Stack Overflow with
Prompt Learning
- arxiv url: http://arxiv.org/abs/2403.03677v1
- Date: Wed, 6 Mar 2024 12:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:04:43.284887
- Title: Automatic Bi-modal Question Title Generation for Stack Overflow with
Prompt Learning
- Title(参考訳): プロンプトラーニングによるスタックオーバーフローのためのバイモーダル質問の自動タイトル生成
- Authors: Shaoyu Yang, Xiang Chen, Ke Liu, Guang Yang, Chi Yu
- Abstract要約: 最初の研究は、質問本体のコードスニペットだけを分析してタイトルを自動的に生成することを目的としていた。
本稿では,問題本体のバイモーダル情報(コードスニペットと問題記述)を考慮し,SOTitle+のアプローチを提案する。
私たちのコーパスには、人気のある6つのプログラミング言語に対する179,119の質の高い質問投稿が含まれています。
- 参考スコア(独自算出の注目度): 10.76882347665857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When drafting question posts for Stack Overflow, developers may not
accurately summarize the core problems in the question titles, which can cause
these questions to not get timely help. Therefore, improving the quality of
question titles has attracted the wide attention of researchers. An initial
study aimed to automatically generate the titles by only analyzing the code
snippets in the question body. However, this study ignored the helpful
information in their corresponding problem descriptions. Therefore, we propose
an approach SOTitle+ by considering bi-modal information (i.e., the code
snippets and the problem descriptions) in the question body. Then we formalize
the title generation for different programming languages as separate but
related tasks and utilize multi-task learning to solve these tasks. Later we
fine-tune the pre-trained language model CodeT5 to automatically generate the
titles. Unfortunately, the inconsistent inputs and optimization objectives
between the pre-training task and our investigated task may make fine-tuning
hard to fully explore the knowledge of the pre-trained model. To solve this
issue, SOTitle+ further prompt-tunes CodeT5 with hybrid prompts (i.e., mixture
of hard and soft prompts). To verify the effectiveness of SOTitle+, we
construct a large-scale high-quality corpus from recent data dumps shared by
Stack Overflow. Our corpus includes 179,119 high-quality question posts for six
popular programming languages. Experimental results show that SOTitle+ can
significantly outperform four state-of-the-art baselines in both automatic
evaluation and human evaluation. Our work indicates that considering bi-modal
information and prompt learning in Stack Overflow title generation is a
promising exploration direction.
- Abstract(参考訳): stack overflowの質問投稿を作成する場合、開発者は質問タイトルの核となる問題を正確に要約することができないため、これらの質問がタイムリーな助けを得ることができない可能性がある。
そのため,質問題の質の向上が研究者の注目を集めている。
最初の研究は、質問本体のコードスニペットだけを分析してタイトルを自動的に生成することを目的としていた。
しかし,本研究は,それらの問題記述における有用な情報を無視した。
そこで本研究では,問題本体の2モーダル情報(コードスニペットと問題記述)を考慮し,SOTitle+のアプローチを提案する。
次に、異なるプログラミング言語のタイトル生成を別個のタスクとして定式化し、マルチタスク学習を用いてこれらのタスクを解決する。
その後、トレーニング済みの言語モデルCodeT5を微調整して、タイトルを自動的に生成します。
残念なことに、事前学習課題と調査課題との間の矛盾した入力と最適化の目的は、事前訓練されたモデルの知識を十分に探求することが困難になる可能性がある。
この問題を解決するため、SOTitle+はハイブリッドプロンプト(ハードプロンプトとソフトプロンプトの混合)でさらにプロンプトチューニングを行う。
SoTitle+の有効性を検証するために,Stack Overflowが共有する最近のデータダンプから,大規模で高品質なコーパスを構築する。
私たちのコーパスには、人気のある6つのプログラミング言語に対する179,119の質の高い質問投稿が含まれています。
実験の結果,SOTitle+は自動評価と人的評価の両面で,最先端の4つのベースラインを著しく上回ることがわかった。
本研究は,stack overflowタイトル生成におけるバイモーダル情報と迅速な学習を考えることが有望な探索の方向性であることを示す。
関連論文リスト
- Good things come in three: Generating SO Post Titles with Pre-Trained Models, Self Improvement and Post Ranking [5.874782446136913]
Stack Overflowは著名なQとAフォーラムであり、開発者がプログラミング関連の問題に適切なリソースを求めるのをサポートする。
高品質な質問タイトルを持つことは、開発者の注意を引き付ける効果的な手段である。
主にトレーニング済みのモデルを活用して、コードスニペットや問題記述からタイトルを生成する研究が行われている。
自己改善とポストランキングを備えた微調整言語モデルを用いて,Stack Overflowのポストタイトルを生成するソリューションとしてFILLERを提案する。
論文 参考訳(メタデータ) (2024-06-21T20:18:34Z) - Answer ranking in Community Question Answering: a deep learning approach [0.0]
本研究は, 地域質問回答の回答ランキングを, 深層学習のアプローチで進めることによって, 技術の現状を推し進めるものである。
Stack OverflowのWebサイトにポストされた質問と回答の大規模なデータセットを作成しました。
我々は,高密度埋め込みとLSTMネットワークの自然言語処理機能を利用して,受理された応答属性の予測を行った。
論文 参考訳(メタデータ) (2022-10-16T18:47:41Z) - Diverse Title Generation for Stack Overflow Posts with Multiple Sampling
Enhanced Transformer [11.03785369838242]
与えられたコードスニペットから複数のポストタイトルを自動的に生成する新しい手法であるM$_3$NSCT5を提案する。
M$_3$NSCT5は、言語理解に優れたトレーニング済みトランスフォーマーモデルであるCodeT5のバックボーンを使用している。
M$_3$NSCT5の有効性を検証するため、8つのプログラミング言語をカバーする890,000の質問ポストを持つ大規模データセットを構築した。
論文 参考訳(メタデータ) (2022-08-24T13:10:48Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Attention-based model for predicting question relatedness on Stack
Overflow [0.0]
Stack Overflowにおける質問間の関連性を自動的に予測するアテンションベースの文対相互作用モデル(ASIM)を提案する。
ASIMは、Precision、Recall、Micro-F1評価メトリクスのベースラインアプローチを大幅に改善しました。
私たちのモデルは、Ask Ubuntuの重複質問検出タスクでもうまく機能します。
論文 参考訳(メタデータ) (2021-03-19T12:18:03Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z) - Few-Shot Complex Knowledge Base Question Answering via Meta
Reinforcement Learning [55.08037694027792]
複雑な質問答え(CQA)は、知識ベース(KB)上の複雑な自然言語質問に答える。
従来のニューラルプログラム誘導(NPI)アプローチは、質問の種類が異なる場合、不均一なパフォーマンスを示す。
本稿では,CQAにおけるプログラム誘導のためのメタ強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-29T18:34:55Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Semantic Graphs for Generating Deep Questions [98.5161888878238]
本稿では、まず、入力文書のセマンティックレベルグラフを構築し、次にアテンションベースのGGNN(Att-GGNN)を導入してセマンティックグラフを符号化する新しいフレームワークを提案する。
HotpotQAのDeep-question中心のデータセットでは、複数の事実の推論を必要とする問題よりもパフォーマンスが大幅に向上し、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-27T10:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。