論文の概要: The Pre-Training Study of Expanded-SPLADE Models on Web Document Titles
- arxiv url: http://arxiv.org/abs/2605.01407v1
- Date: Sat, 02 May 2026 12:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.756381
- Title: The Pre-Training Study of Expanded-SPLADE Models on Web Document Titles
- Title(参考訳): Web文書における拡張SPLADEモデルの事前評価
- Authors: Hiun Kim, Tae Kwan Lee, Taeryun Won,
- Abstract要約: 本稿では,事前学習データセットと事前学習オプションが,検索微調整のための事前学習モデルに及ぼす影響について検討する。
未刈取と最も厳密な刈取の両方において高い検索効率の微調整されたモデルは、概ね一般コーパスで事前訓練されている。
- 参考スコア(独自算出の注目度): 0.08949202626090576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Language Modeling (MLM) pre-training is one of the primary ways to initialize Neural Information Retrieval (IR) models prior to retrieval fine-tuning. However, studies show that MLM pre-trained models have limited readiness and transfer learning issues for fine-tuning them into Neural Bi-Encoder models. This paper studies the effect of different pre-training datasets and pre-training options on the MLM pre-trained models for retrieval fine-tuning. The study focuses on the SPLADE-style model, which uses the MLM layer also at fine-tuning time. More specifically, we experimented with Expanded-SPLADE (ESPLADE) models, a specific instance of SPLADE models, and in-house web document titles are used as datasets. Pre-training, fine-tuning, and evaluation with optional test-time pruning of sparse vectors are conducted. Our observations are three-fold: First, fine-tuned models of higher retrieval effectiveness at both unpruned and most strict pruned settings are mostly pre-trained on a general corpus, and pre-trained with a higher learning rate, showing lower MLM accuracies. Second, in the most strict pruned setting, those models show higher-level retrieval cost and a higher variance in the length of the individual postings list. Third, the repetition of the general pre-training dataset does not have much effect on retrieval effectiveness. The experimentation empirically identifies the potential limitations for aligning MLM pre-training to ESPLADE fine-tuning. Also, the experimentation provides an empirical observation that, at most strict pruned settings, the retrieval effectiveness is better maintained by the higher-level retrieval cost, showing the trade-off relationship between the two in our setting.
- Abstract(参考訳): Masked Language Modeling (MLM) プレトレーニングは、ニューラルネットワーク検索モデル(IR)を検索に先立って初期化する主要な方法の1つである。
しかし,本研究では,MLM事前学習モデルがニューラルビエンコーダモデルに微調整する際の可読性や伝達学習の問題に制限があることが示されている。
本稿では,MLM事前学習モデルに対する事前学習データセットと事前学習オプションの効果について検討する。
本研究は,MLM層を微調整時に使用するSPLADE型モデルに焦点を当てた。
具体的には,拡張SPLADE(Expanded-SPLADE)モデル,SPLADEモデルの特定のインスタンス,および社内Webドキュメントタイトルをデータセットとして使用した。
スパースベクトルの任意のテスト時間プルーニングによる事前学習,微調整,評価を行う。
まず、未熟な状態と最も厳密な状態の両方において高い検索効率の微調整されたモデルが、通常コーパスで事前訓練され、高い学習率で事前訓練され、MLMの精度が低いことを示す。
第二に、最も厳密なプルーニング環境では、これらのモデルは、個々の投稿リストの長さにより高いレベルの検索コストと高いばらつきを示す。
第3に、一般的な事前学習データセットの反復は、検索効率に大きな影響を与えない。
この実験は、ESPLADEの微調整にMLMを事前訓練する際の潜在的な限界を実証的に特定する。
また, 実験により, 最も厳密なプルーニング条件下では, 高いレベルの検索コストによる検索効率の維持が図られ, 両者のトレードオフ関係が示された。
関連論文リスト
- Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data [19.221998577357713]
大規模言語モデル(LLM)は一般に事前学習プロセスを通して一貫したデータ分布を利用する。
モデルの性能が向上するにつれて、データ嗜好が動的に変化するのは直感的であり、様々なトレーニング段階で異なるデータで事前トレーニングする必要があることを示している。
我々は、常にLLMが好むデータを認識し、活用し、それらをトレーニングし、強化するパープレキシティ・ディファレンス(PD)ベースのPreference Curriculum Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-21T13:12:13Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Mitigating Noise Detriment in Differentially Private Federated Learning with Model Pre-training [29.46300520635549]
Differentially Private Learning (DPFL)は、ノイズを伴うモデル勾配の摂動によるプライバシー保護を強化する。
前回の実証実験では、ランダムパラメータではなく事前訓練による初期化がノイズ障害を軽減することが示唆された。
本稿では,3つの代表的な微調整戦略を体系的に評価するフレームワークであるPretrain-DPFLを提案する。
論文 参考訳(メタデータ) (2024-08-18T13:48:10Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。