論文の概要: DPTDR: Deep Prompt Tuning for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2208.11503v1
- Date: Wed, 24 Aug 2022 12:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:04:27.477385
- Title: DPTDR: Deep Prompt Tuning for Dense Passage Retrieval
- Title(参考訳): DPTDR:Dense Passage RetrievalのためのDeep Prompt Tuning
- Authors: Zhengyang Tang, Benyou Wang, Ting Yao
- Abstract要約: ディーププロンプトチューニング(DPT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
しかし、微細チューニング(FT)が依然として支配的な高密度検索においては、十分に解明されていない。
本稿では,DPTに基づく検索手法,すなわち検索指向の中間事前学習と統合負のマイニングの2つのモデル非依存型およびタスク非依存型戦略を提案する。
- 参考スコア(独自算出の注目度): 53.217524851268216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep prompt tuning (DPT) has gained great success in most natural language
processing~(NLP) tasks. However, it is not well-investigated in dense retrieval
where fine-tuning~(FT) still dominates. When deploying multiple retrieval tasks
using the same backbone model~(e.g., RoBERTa), FT-based methods are unfriendly
in terms of deployment cost: each new retrieval model needs to repeatedly
deploy the backbone model without reuse. To reduce the deployment cost in such
a scenario, this work investigates applying DPT in dense retrieval. The
challenge is that directly applying DPT in dense retrieval largely
underperforms FT methods. To compensate for the performance drop, we propose
two model-agnostic and task-agnostic strategies for DPT-based retrievers,
namely retrieval-oriented intermediate pretraining and unified negative mining,
as a general approach that could be compatible with any pre-trained language
model and retrieval task. The experimental results show that the proposed
method (called DPTDR) outperforms previous state-of-the-art models on both
MS-MARCO and Natural Questions. We also conduct ablation studies to examine the
effectiveness of each strategy in DPTDR. We believe this work facilitates the
industry, as it saves enormous efforts and costs of deployment and increases
the utility of computing resources. Our code is available at
https://github.com/tangzhy/DPTDR.
- Abstract(参考訳): ディーププロンプトチューニング(DPT)は、ほとんどの自然言語処理〜(NLP)タスクで大きな成功を収めている。
しかし、微細チューニング~(FT)が依然として支配的な密集検索では十分に解明されていない。
同一のbackbone model~(例えばroberta)を使用して複数の検索タスクをデプロイする場合、ftベースのメソッドはデプロイコストの面では不都合である。
このようなシナリオにおける展開コストを低減するため,DPTを高密度検索に適用することを検討した。
DPTを高密度検索に直接適用することは、FT法に大きく劣る。
性能低下を補うため,DPTをベースとした検索手法,すなわち検索指向の中間訓練と統合負のマイニングの2つのモデル非依存およびタスク非依存の戦略を,事前学習された言語モデルや検索タスクと互換性のある一般的なアプローチとして提案する。
実験の結果,提案手法はMS-MARCOとNatural Questionsの両方において,従来の最先端モデルよりも優れていることがわかった。
また, DPTDRにおける各戦略の有効性を検討するためにアブレーション研究を行った。
この作業は、膨大な労力とデプロイコストを節約し、コンピューティングリソースの有用性を高めるため、業界を助長すると信じています。
私たちのコードはhttps://github.com/tangzhy/dptdr.comで利用可能です。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Continual Learning for Remote Physiological Measurement: Minimize Forgetting and Simplify Inference [4.913049603343811]
既存のr測定手法は、しばしば漸進的な学習シナリオを見落としている。
既存のクラスインクリメンタルな学習アプローチはr測定には適していない。
r測定のための連続学習に取り組むためにADDPという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T01:49:09Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - DiffNAS: Bootstrapping Diffusion Models by Prompting for Better
Architectures [63.12993314908957]
そこで我々は,DiffNASと呼ばれるベースモデル探索手法を提案する。
GPT-4をスーパーネットとして利用して検索を高速化し,検索メモリを補足して結果を向上する。
厳密な実験により,GPTに基づくシナリオでは,探索効率を2倍に向上できることが示された。
論文 参考訳(メタデータ) (2023-10-07T09:10:28Z) - RDumb: A simple approach that questions our progress in continual test-time adaptation [12.374649969346441]
テスト時間適応(TTA)では、事前トレーニングされたモデルをデプロイ時にデータ配布を変更するように更新することができる。
近年の長期にわたる連続的適応手法の提案と適用方法が提案されている。
最終的には、最先端の1つのメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。
論文 参考訳(メタデータ) (2023-06-08T17:52:34Z) - Task-guided Disentangled Tuning for Pretrained Language Models [16.429787408467703]
本稿では,事前学習型言語モデル(PLM)のためのタスク誘導型ディスタングル型チューニング(TDT)を提案する。
TDTは、タスク関連信号を絡み合った表現から切り離すことにより、表現の一般化を強化する。
GLUE と CLUE のベンチマークによる実験結果から,TDT は異なる PLM を用いた微調整よりも一貫した結果が得られた。
論文 参考訳(メタデータ) (2022-03-22T03:11:39Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。