論文の概要: Topic-DPR: Topic-based Prompts for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2310.06626v1
- Date: Tue, 10 Oct 2023 13:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:16:43.075187
- Title: Topic-DPR: Topic-based Prompts for Dense Passage Retrieval
- Title(参考訳): Topic-DPR:Dense Passage Retrievalのためのトピックベースのプロンプト
- Authors: Qingfa Xiao, Shuangyin Li, Lei Chen
- Abstract要約: トピックベースのプロンプトを用いた高密度経路探索モデルであるTopic-DPRを提案する。
本稿では, 半構造化データを利用して高密度検索効率を向上させる, 新規な正負サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 6.265789210037749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based learning's efficacy across numerous natural language processing
tasks has led to its integration into dense passage retrieval. Prior research
has mainly focused on enhancing the semantic understanding of pre-trained
language models by optimizing a single vector as a continuous prompt. This
approach, however, leads to a semantic space collapse; identical semantic
information seeps into all representations, causing their distributions to
converge in a restricted region. This hinders differentiation between relevant
and irrelevant passages during dense retrieval. To tackle this issue, we
present Topic-DPR, a dense passage retrieval model that uses topic-based
prompts. Unlike the single prompt method, multiple topic-based prompts are
established over a probabilistic simplex and optimized simultaneously through
contrastive learning. This encourages representations to align with their topic
distributions, improving space uniformity. Furthermore, we introduce a novel
positive and negative sampling strategy, leveraging semi-structured data to
boost dense retrieval efficiency. Experimental results from two datasets affirm
that our method surpasses previous state-of-the-art retrieval techniques.
- Abstract(参考訳): 多くの自然言語処理タスクにまたがるプロンプトに基づく学習の有効性は、高密度経路探索への統合につながった。
先行研究は主に、単一のベクトルを連続的なプロンプトとして最適化することで、事前学習された言語モデルのセマンティック理解を強化することに重点を置いている。
しかし、このアプローチは意味空間が崩壊し、同じ意味情報がすべての表現に反映され、その分布が制限された領域に収束する。
これにより、密検索中の関連通路と関連しない通路の区別が妨げられる。
そこで,本稿では,トピックに基づくプロンプトを用いた高密度パス検索モデルである topic-dpr を提案する。
単一プロンプト法とは異なり、確率的単純度の上に複数のトピックベースのプロンプトを確立し、対照的な学習を通じて同時に最適化する。
これにより、表現はトピックの分布と整合し、空間の均一性を改善する。
さらに, 半構造化データを利用して検索効率を高める, 新たな正負のサンプリング戦略を提案する。
2つのデータセットによる実験結果から,本手法が従来の最先端検索技術を上回ることを確認した。
関連論文リスト
- A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Composition-contrastive Learning for Sentence Embeddings [23.85590618900386]
この作業は、補助的なトレーニング目標や追加のネットワークパラメータのコストを発生させることなく、初めて実施される。
意味的テキスト類似性タスクの実験結果は、最先端のアプローチに匹敵するベースラインの改善を示す。
論文 参考訳(メタデータ) (2023-07-14T14:39:35Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Collaborative Training of GANs in Continuous and Discrete Spaces for
Text Generation [21.435286755934534]
本稿では,連続空間と離散空間の協調学習を促進する新しいテキストGANアーキテクチャを提案する。
我々のモデルは、品質、多様性、グローバルな一貫性に関して、最先端のGANよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-10-16T07:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。