論文の概要: Duplicate Question Retrieval and Confirmation Time Prediction in
Software Communities
- arxiv url: http://arxiv.org/abs/2309.05035v1
- Date: Sun, 10 Sep 2023 14:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 08:11:47.662829
- Title: Duplicate Question Retrieval and Confirmation Time Prediction in
Software Communities
- Title(参考訳): ソフトウェアコミュニティにおける重複質問検索と確認時間予測
- Authors: Rima Hazra, Debanjan Saha, Amruit Sahoo, Somnath Banerjee, Animesh
Mukherjee
- Abstract要約: 異なるドメインにおけるコミュニティ質問回答(CQA)は、複数のプラットフォームが利用可能であり、ユーザ間で大きな共有情報があるため、大規模に成長している。
このようなオンラインプラットフォームが急速に成長する中で、大量のアーカイブデータによって、モデレーターが新たな疑問のために可能な複製を検索することが困難になる。
我々は、テキストとネットワークベースの両方の特徴を生かして、シームズニューラルネットワークに基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.721583392950402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Community Question Answering (CQA) in different domains is growing at a large
scale because of the availability of several platforms and huge shareable
information among users. With the rapid growth of such online platforms, a
massive amount of archived data makes it difficult for moderators to retrieve
possible duplicates for a new question and identify and confirm existing
question pairs as duplicates at the right time. This problem is even more
critical in CQAs corresponding to large software systems like askubuntu where
moderators need to be experts to comprehend something as a duplicate. Note that
the prime challenge in such CQA platforms is that the moderators are themselves
experts and are therefore usually extremely busy with their time being
extraordinarily expensive. To facilitate the task of the moderators, in this
work, we have tackled two significant issues for the askubuntu CQA platform:
(1) retrieval of duplicate questions given a new question and (2) duplicate
question confirmation time prediction. In the first task, we focus on
retrieving duplicate questions from a question pool for a particular newly
posted question. In the second task, we solve a regression problem to rank a
pair of questions that could potentially take a long time to get confirmed as
duplicates. For duplicate question retrieval, we propose a Siamese neural
network based approach by exploiting both text and network-based features,
which outperforms several state-of-the-art baseline techniques. Our method
outperforms DupPredictor and DUPE by 5% and 7% respectively. For duplicate
confirmation time prediction, we have used both the standard machine learning
models and neural network along with the text and graph-based features. We
obtain Spearman's rank correlation of 0.20 and 0.213 (statistically
significant) for text and graph based features respectively.
- Abstract(参考訳): 異なるドメインにおけるコミュニティ質問回答(CQA)は、複数のプラットフォームが利用可能であり、ユーザ間で大きな共有情報があるため、大規模に成長している。
このようなオンラインプラットフォームの急速な成長に伴い、大量のアーカイブデータによって、モデレーターは新しい質問に対して可能な重複を検索し、既存の質問ペアを正しいタイミングで重複として識別し確認することが困難になる。
この問題はaskubuntuのような大規模ソフトウェアシステムに対応するcqaにおいてさらに重要であり、モデレーターは何かを重複として理解するには専門家である必要がある。
このようなCQAプラットフォームの最大の課題は、モデレーター自身が専門家であり、そのため非常に高価な時間で非常に忙しいことである。
本研究では,モデレーターの作業を容易にするため,askubuntu cqaプラットフォームにおいて,(1)新たな質問に対する重複質問の検索,(2)重複質問確認時間予測という2つの重要な課題に取り組んでいる。
最初のタスクでは、新たに投稿された質問に対して、質問プールから重複した質問を検索することに焦点を当てる。
第2のタスクでは、重複として確認されるのに長い時間がかかる可能性のある2つの質問をランク付けするために回帰問題を解く。
重ね合わせ質問検索では,テキストとネットワークに基づく特徴を併用し,最先端のベースライン技術に勝るシアームニューラルネット方式を提案する。
DupPredictor と DUPE をそれぞれ5%, 7% で比較した。
重複した確認時間予測には、標準機械学習モデルとニューラルネットワークと、テキストとグラフベースの機能の両方を使用しました。
テキストとグラフでそれぞれ0.20と0.213(統計的に有意)のスピアマンのランク相関を求める。
関連論文リスト
- Feature Engineering in Learning-to-Rank for Community Question Answering
Task [2.5091819952713057]
コミュニティ質問応答(CQA)フォーラムはインターネットベースのプラットフォームで、ユーザーはトピックについて質問し、他の専門家はソリューションを提供しようとする。
Quora、Stackoverflow、Yahoo!Answer、StackExchangeといった多くのCQAフォーラムには、多くのユーザ生成データが存在する。
これらのデータは、ユーザの問い合わせに応じて類似の質問(と回答)が提示される自動CQAランキングシステムで活用される。
論文 参考訳(メタデータ) (2023-09-14T11:18:26Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - Unsupervised Question Duplicate and Related Questions Detection in
e-learning platforms [1.8749305679160364]
そこで本稿では,教師付きデータを使わずに,ほぼ重複した,意味的な質問を提示するツールを提案する。
提案するツールは、統計的アプローチとニューラルネットワークアプローチの教師なしハイブリッドパイプラインに従う。
我々はQDupがほぼ重複した質問を検知し、関連する質問を驚くほどの精度とスピードで提案できることを実証した。
論文 参考訳(メタデータ) (2022-12-20T11:52:52Z) - Mining Duplicate Questions of Stack Overflow [5.924018537171331]
Stack Overflow上での重複質問検出のためのニューラルネットワークに基づくアーキテクチャを2つ提案する。
また,質問に含まれるコードを明示的にモデル化して,技術状況を超える結果が得られるようにも提案する。
論文 参考訳(メタデータ) (2022-10-04T14:34:59Z) - Attention-based model for predicting question relatedness on Stack
Overflow [0.0]
Stack Overflowにおける質問間の関連性を自動的に予測するアテンションベースの文対相互作用モデル(ASIM)を提案する。
ASIMは、Precision、Recall、Micro-F1評価メトリクスのベースラインアプローチを大幅に改善しました。
私たちのモデルは、Ask Ubuntuの重複質問検出タスクでもうまく機能します。
論文 参考訳(メタデータ) (2021-03-19T12:18:03Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z) - Better Early than Late: Fusing Topics with Word Embeddings for Neural
Question Paraphrase Identification [24.574227630018758]
質問文識別のためのニューラルアーキテクチャにおいて,話題と単語の埋め込みを融合する2つの方法を提案する。
我々のシステムは,複数のCQAデータセット上での神経ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-07-22T10:09:26Z) - Match$^2$: A Matching over Matching Model for Similar Question
Identification [74.7142127303489]
コミュニティ質問回答(Community Question Answering, CQA)は,質問や回答の提出を自由に行う,知識獲得のための主要な手段となっている。
類似した質問識別は、CQAの中核的なタスクとなり、新しい質問が尋ねられるたびに、アーカイブされたリポジトリから同様の質問を見つけることを目的としている。
自然言語の固有のバリエーション、すなわち、同じ質問をしたり、同じ表現を共有する異なる質問をする方法があるため、この2つの質問の類似性を適切に測定することは、長い間困難であった。
従来の手法では片側の使用が一般的であり、答えを拡張された表現として活用する。
論文 参考訳(メタデータ) (2020-06-21T05:59:34Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Unsupervised Question Decomposition for Question Answering [102.56966847404287]
本論文では, ワンツーNアン教師付きシーケンスシーケンス(ONUS)のアルゴリズムを提案する。
当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
論文 参考訳(メタデータ) (2020-02-22T19:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。