Fugu-MT 論文翻訳(概要): Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

論文の概要: Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

arxiv url: http://arxiv.org/abs/2108.05540v1
Date: Thu, 12 Aug 2021 05:20:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-13 14:29:43.548054
Title: Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval
Title（参考訳）: 難読度検索のための教師なしコーパス認識言語モデル事前学習
Authors: Luyu Gao, Jamie Callan
Abstract要約: 我々は高密度レトリバーの2つの根本問題を特定し,対処する。我々は最近提案されたCondenser事前学習アーキテクチャを使用し、LM事前学習を通して密接なベクトルに情報を凝縮することを学ぶ。本稿では,パス埋め込み空間を暖めるために,教師なしコーパスレベルのコントラスト損失を加えたcoCondenserを提案する。
参考スコア（独自算出の注目度）: 15.238322226336232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research demonstrates the effectiveness of using fine-tuned language models~(LM) for dense retrieval. However, dense retrievers are hard to train, typically requiring heavily engineered fine-tuning pipelines to realize their full potential. In this paper, we identify and address two underlying problems of dense retrievers: i)~fragility to training data noise and ii)~requiring large batches to robustly learn the embedding space. We use the recently proposed Condenser pre-training architecture, which learns to condense information into the dense vector through LM pre-training. On top of it, we propose coCondenser, which adds an unsupervised corpus-level contrastive loss to warm up the passage embedding space. Retrieval experiments on MS-MARCO, Natural Question, and Trivia QA datasets show that coCondenser removes the need for heavy data engineering such as augmentation, synthesis, or filtering, as well as the need for large batch training. It shows comparable performance to RocketQA, a state-of-the-art, heavily engineered system, using simple small batch fine-tuning.
Abstract（参考訳）: 近年,高密度検索における微調整言語モデル~(LM)の有効性が実証されている。しかし、密集したレトリバーは訓練が困難であり、その潜在能力を十分に実現するためには、高度に設計された微調整パイプラインが必要である。本稿では,高密度レトリバーの根底にある2つの問題に対処する:i) データのノイズを訓練するための柔軟性と,i) 埋め込み空間をしっかり学習するために大きなバッチを必要とする。我々は,最近提案するコンデンサプリトレーニングアーキテクチャを用いて,lmプリトレーニングにより情報を高密度ベクトルに凝縮することを学ぶ。さらに,パス埋め込み空間を暖めるために,教師なしコーパスレベルのコントラスト損失を加えたcoCondenserを提案する。 MS-MARCO、Nature Question、Trivia QAデータセットの検索実験は、coCondenserが強化、合成、フィルタリングといった重データエンジニアリングの必要性を排除し、大規模なバッチトレーニングの必要性を示している。 rocketqaは最先端の高度に設計されたシステムで、単純なバッチの微調整で性能が向上している。

関連論文リスト

LOST: Low-rank and Sparse Pre-training for Large Language Models [28.81360343891614]
大規模言語モデルでは、スクラッチから事前学習するための計算とメモリのコストが禁じられている。 LLMのためのtextbfLOw-rank と textbfSparse pre-textbfTraining (textbfLOST) を提案する。
論文参考訳（メタデータ） (2025-08-04T17:58:22Z)
Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文参考訳（メタデータ） (2025-06-13T18:08:54Z)
Pre-training vs. Fine-tuning: A Reproducibility Study on Dense Retrieval Knowledge Acquisition [28.48078856765935]
デンスレトリバーは、コントラスト学習によって微調整された事前訓練されたバックボーン言語モデル(BERT、LLaMAなど)を使用して、テキストをセンス表現に符号化するタスクを実行する。近年の研究では、高密度レトリバーにおける微調整と事前学習の役割に疑問が呈されている。本研究は、DPRチューニングにおいて、事前学習した知識は、知識を再編成するのではなく、主にニューロンの活性化を調整し、検索性能を支えていることを確認した。
論文参考訳（メタデータ） (2025-05-12T01:24:00Z)
Teaching Dense Retrieval Models to Specialize with Listwise Distillation and LLM Data Augmentation [43.81779293196647]
標準的な微調整手法は、ドメイン固有のシナリオであっても、改善するよりも、予想外に効率を低下させる可能性があることを示す。そこで我々は,教師のクロスエンコーダからリストワイズを抽出し,リッチな関連信号を利用して学習者を微調整する訓練戦略を検討する。また,本研究の結果から,合成クエリはトレーニングユーティリティにおいて人書きクエリと競合する可能性が示唆された。
論文参考訳（メタデータ） (2025-02-27T03:07:49Z)
Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは検索の関連という点ではるかに遅れていますスパースモデルと密集したサイムズモデルの両方と比較してまず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文参考訳（メタデータ） (2024-11-07T03:46:43Z)
Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文参考訳（メタデータ） (2024-11-01T21:01:13Z)
A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文参考訳（メタデータ） (2024-09-03T13:29:13Z)
CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文参考訳（メタデータ） (2024-06-07T19:10:35Z)
Unsupervised Dense Retrieval with Relevance-Aware Contrastive Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文参考訳（メタデータ） (2023-06-05T18:20:27Z)
Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。 CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。 MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文参考訳（メタデータ） (2023-04-06T22:16:53Z)
Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。 KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。 KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文参考訳（メタデータ） (2023-03-31T15:44:13Z)
SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文参考訳（メタデータ） (2023-03-18T17:56:01Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。