論文の概要: Refining GPT-3 Embeddings with a Siamese Structure for Technical Post
Duplicate Detection
- arxiv url: http://arxiv.org/abs/2312.15068v2
- Date: Mon, 4 Mar 2024 17:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:11:26.855330
- Title: Refining GPT-3 Embeddings with a Siamese Structure for Technical Post
Duplicate Detection
- Title(参考訳): 技術的重複検出のためのシームス構造を有するGPT-3インベディングの精製
- Authors: Xingfang Wu, Heng Li, Nobukazu Yoshioka, Hironori Washizaki, Foutse
Khomh
- Abstract要約: この研究は、重複検出タスクのためにGPT-3の埋め込みを活用し、洗練しようとするものである。
技術的フォーラム投稿の重複関係を正確に把握する潜伏埋め込みを得る。
提案手法では,Top-1,Top-5,Top-30の精度はそれぞれ23.1%,43.9%,68.9%である。
- 参考スコア(独自算出の注目度): 15.757274995973864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One goal of technical online communities is to help developers find the right
answer in one place. A single question can be asked in different ways with
different wordings, leading to the existence of duplicate posts on technical
forums. The question of how to discover and link duplicate posts has garnered
the attention of both developer communities and researchers. For example, Stack
Overflow adopts a voting-based mechanism to mark and close duplicate posts.
However, addressing these constantly emerging duplicate posts in a timely
manner continues to pose challenges. Therefore, various approaches have been
proposed to detect duplicate posts on technical forum posts automatically. The
existing methods suffer from limitations either due to their reliance on
handcrafted similarity metrics which can not sufficiently capture the semantics
of posts, or their lack of supervision to improve the performance.
Additionally, the efficiency of these methods is hindered by their dependence
on pair-wise feature generation, which can be impractical for large amount of
data. In this work, we attempt to employ and refine the GPT-3 embeddings for
the duplicate detection task. We assume that the GPT-3 embeddings can
accurately represent the semantics of the posts. In addition, by training a
Siamese-based network based on the GPT-3 embeddings, we obtain a latent
embedding that accurately captures the duplicate relation in technical forum
posts. Our experiment on a benchmark dataset confirms the effectiveness of our
approach and demonstrates superior performance compared to baseline methods.
When applied to the dataset we constructed with a recent Stack Overflow dump,
our approach attains a Top-1, Top-5, and Top-30 accuracy of 23.1%, 43.9%, and
68.9%, respectively. With a manual study, we confirm our approach's potential
of finding unlabelled duplicates on technical forums.
- Abstract(参考訳): 技術的オンラインコミュニティの1つのゴールは、開発者が一箇所で正しい答えを見つけるのを助けることである。
一つの質問は異なる言葉で異なる方法で問うことができ、技術的フォーラムに重複するポストが存在する。
重複投稿の発見とリンクに関する問題は、開発者コミュニティと研究者の両方の注目を集めている。
例えばstack overflowでは,重複記事のマークとクローズに投票ベースのメカニズムを採用している。
しかし、これら繰り返し発生する重複投稿にタイムリーに対処することは、課題を生じ続けている。
そのため,技術フォーラム投稿の重複投稿を自動的に検出する手法が提案されている。
既存のメソッドは、投稿の意味を十分に把握できない手作りの類似度メトリクスに依存するか、パフォーマンスを改善するための監督の欠如によって、制限に苦しめられている。
さらに、これらの手法の効率は、大量のデータに対して実用的でないペアワイズ特徴生成への依存によって妨げられる。
本研究では,重複検出タスクのためのgpt-3組込みを採用し,改良する。
GPT-3埋め込みはポストのセマンティクスを正確に表現できると仮定する。
さらに,gpt-3組込みに基づくシャム語ベースのネットワークを訓練することにより,技術フォーラム投稿における重複関係を正確に捉えた潜在埋め込みを実現する。
ベンチマークデータセットを用いた実験により,提案手法の有効性を確認し,ベースライン法と比較して優れた性能を示す。
最近のStack Overflowダンプで構築したデータセットに適用すると、Top-1、Top-5、Top-30の精度はそれぞれ23.1%、43.9%、68.9%に達します。
マニュアル研究により,技術フォーラムでラベルなしの複製を発見できる可能性を確認した。
関連論文リスト
- Can Search-Based Testing with Pareto Optimization Effectively Cover Failure-Revealing Test Inputs? [2.038863628148453]
我々は,検索領域内の障害発生領域をカバーするには,検索ベースソフトウェアテスト(SBST)が不十分であると主張している。
本研究では,入力空間におけるフェールリベリングテスト入力のカバレッジを,Coverage Inverted Distance品質指標と呼ぶ指標を用いて測定する。
論文 参考訳(メタデータ) (2024-10-15T16:44:40Z) - 3D-Prover: Diversity Driven Theorem Proving With Determinantal Point Processes [12.466379414976046]
自動形式推論における重要な課題は、証明の深さとともに指数関数的に成長する、難解な探索空間である。
セマンティックな多様性と高品質な戦術を活用する新しいフィルタリング機構を提案する。
提案手法は, 総合的な証明率の向上と, 戦術的成功率, 実行時間, 多様性の大幅な向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-14T23:13:53Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - PSDiff: Diffusion Model for Person Search with Iterative and
Collaborative Refinement [59.6260680005195]
本稿では,拡散モデルであるPSDiffに基づく新しいPerson Searchフレームワークを提案する。
PSDiffは、ノイズの多いボックスとReID埋め込みから地上の真実へのデュアルデノケーションプロセスとして検索する人を定式化する。
新しいパラダイムに従って、我々は、反復的かつ協調的な方法で検出とReIDサブタスクを最適化する新しいコラボレーティブ・デノナイジング・レイヤ(CDL)を設計する。
論文 参考訳(メタデータ) (2023-09-20T08:16:39Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - PASTE: A Tagging-Free Decoding Framework Using Pointer Networks for
Aspect Sentiment Triplet Extraction [12.921737393688245]
Aspect Sentiment Triplet extract (ASTE)は、意見の対象または側面、関連する感情、およびそれに対応する意見用語/スパンからなる意見三つ子を抽出する。
我々は、ポイントネットワークベースのデコードフレームワークでエンコーダ・デコーダアーキテクチャを適用し、各ステップで全意見の三重項を生成する。
論文 参考訳(メタデータ) (2021-10-10T13:39:39Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。