論文の概要: Pre-training vs. Fine-tuning: A Reproducibility Study on Dense Retrieval Knowledge Acquisition
- arxiv url: http://arxiv.org/abs/2505.07166v1
- Date: Mon, 12 May 2025 01:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.234741
- Title: Pre-training vs. Fine-tuning: A Reproducibility Study on Dense Retrieval Knowledge Acquisition
- Title(参考訳): プレトレーニング vs. ファインチューニング:Dense Retrieval Knowledge Acquisitionにおける再現性の検討
- Authors: Zheng Yao, Shuai Wang, Guido Zuccon,
- Abstract要約: デンスレトリバーは、コントラスト学習によって微調整された事前訓練されたバックボーン言語モデル(BERT、LLaMAなど)を使用して、テキストをセンス表現に符号化するタスクを実行する。
近年の研究では、高密度レトリバーにおける微調整と事前学習の役割に疑問が呈されている。
本研究は、DPRチューニングにおいて、事前学習した知識は、知識を再編成するのではなく、主にニューロンの活性化を調整し、検索性能を支えていることを確認した。
- 参考スコア(独自算出の注目度): 28.48078856765935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrievers utilize pre-trained backbone language models (e.g., BERT, LLaMA) that are fine-tuned via contrastive learning to perform the task of encoding text into sense representations that can be then compared via a shallow similarity operation, e.g. inner product. Recent research has questioned the role of fine-tuning vs. that of pre-training within dense retrievers, specifically arguing that retrieval knowledge is primarily gained during pre-training, meaning knowledge not acquired during pre-training cannot be sub-sequentially acquired via fine-tuning. We revisit this idea here as the claim was only studied in the context of a BERT-based encoder using DPR as representative dense retriever. We extend the previous analysis by testing other representation approaches (comparing the use of CLS tokens with that of mean pooling), backbone architectures (encoder-only BERT vs. decoder-only LLaMA), and additional datasets (MSMARCO in addition to Natural Questions). Our study confirms that in DPR tuning, pre-trained knowledge underpins retrieval performance, with fine-tuning primarily adjusting neuron activation rather than reorganizing knowledge. However, this pattern does not hold universally, such as in mean-pooled (Contriever) and decoder-based (LLaMA) models. We ensure full reproducibility and make our implementation publicly available at https://github.com/ielab/DenseRetriever-Knowledge-Acquisition.
- Abstract(参考訳): デンスレトリバーは、コントラスト学習によって微調整された事前訓練されたバックボーン言語モデル(例えばBERT、LLaMA)を使用して、テキストをセンス表現に符号化するタスクを実行し、浅い類似操作、例えば内部積を通じて比較することができる。
近年の研究では、高密度検索機における事前学習における微調整と事前学習の役割に疑問が呈されており、特に、事前学習時に取得されていない知識は、微調整によってサブシーケンシャルに取得できない。
DPRを代表的高密度検索器として使用したBERTベースのエンコーダの文脈でのみ研究されたので,この考え方を再考する。
我々は、他の表現アプローチ(平均プーリングによるCLSトークンの使用との比較)、バックボーンアーキテクチャ(エンコーダのみのBERT対デコーダのみのLLaMA)、追加のデータセット(自然質問に加えてMSMARCO)をテストすることで、以前の分析を拡張した。
本研究は、DPRチューニングにおいて、事前学習した知識は、知識を再編成するよりも、主にニューロンの活性化を調整する微調整によって、検索性能を支えていることを確認した。
しかし、平均プール(Contriever)やデコーダベース(LLaMA)モデルのように、このパターンは普遍的に保持されない。
完全な再現性を確保し、実装をhttps://github.com/ielab/DenseRetriever-Knowledge-Acquisitionで公開します。
関連論文リスト
- Dense Passage Retrieval: Is it Retrieving? [1.9797215742507548]
本稿では,探索,層活性化解析,モデル編集を組み合わせたDPR学習モデルについて検討する。
実験により、DPRトレーニングは、ネットワーク内の知識の格納方法を分散化し、同一情報に対する複数のアクセス経路を生成することを示す。
事前訓練されたモデルの内部知識は、検索モデルが取得できるものの境界である。
論文 参考訳(メタデータ) (2024-02-16T19:28:52Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。