論文の概要: MQDD: Pre-training of Multimodal Question Duplicity Detection for
Software Engineering Domain
- arxiv url: http://arxiv.org/abs/2203.14093v2
- Date: Tue, 29 Mar 2022 11:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 10:35:08.077855
- Title: MQDD: Pre-training of Multimodal Question Duplicity Detection for
Software Engineering Domain
- Title(参考訳): MQDD: ソフトウェアエンジニアリング領域におけるマルチモーダル質問重複検出の事前トレーニング
- Authors: Jan Pa\v{s}ek, Jakub Sido, Miloslav Konop\'ik, Ond\v{r}ej Pra\v{z}\'ak
- Abstract要約: 本研究では,Stack Overflow Webサイトで収集されたデータを活用して,質問応答Webサイトの重複を検索するためのマルチモーダルモデルを事前トレーニングする,新たなパイプラインを提案する。
我々のマルチモーダルモデルは、複数のプログラミング言語の疑問記述とソースコードに基づいて訓練されている。
その結果、成熟した、微調整されたマルチモーダル質問重複検出(MQDD)モデルとなり、Stack Overflow検索システムに統合できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work proposes a new pipeline for leveraging data collected on the Stack
Overflow website for pre-training a multimodal model for searching duplicates
on question answering websites. Our multimodal model is trained on question
descriptions and source codes in multiple programming languages. We design two
new learning objectives to improve duplicate detection capabilities. The result
of this work is a mature, fine-tuned Multimodal Question Duplicity Detection
(MQDD) model, ready to be integrated into a Stack Overflow search system, where
it can help users find answers for already answered questions. Alongside the
MQDD model, we release two datasets related to the software engineering domain.
The first Stack Overflow Dataset (SOD) represents a massive corpus of paired
questions and answers. The second Stack Overflow Duplicity Dataset (SODD)
contains data for training duplicate detection models.
- Abstract(参考訳): 本稿では,stack overflow webサイトで収集したデータを活用して,質問応答webサイトの重複を検索するためのマルチモーダルモデルを事前学習する新たなパイプラインを提案する。
マルチモーダルモデルは、複数のプログラミング言語の質問記述とソースコードに基づいて訓練されています。
重複検出能力を改善するために,新たな学習目標を2つ設計する。
この研究の成果は、成熟した微調整されたマルチモーダル質問ダプライシティ検出(mqdd)モデルであり、スタックオーバーフロー検索システムに統合される準備ができており、すでに回答された質問に対する回答を見つけるのに役立ちます。
MQDDモデルとともに、ソフトウェアエンジニアリングドメインに関連する2つのデータセットをリリースします。
最初のstack overflowデータセット(sod)は、ペアの質問と回答の巨大なコーパスを表している。
第2のStack Overflow Duplicity Dataset(SODD)には、重複検出モデルをトレーニングするためのデータが含まれている。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。