論文の概要: An Experimental Study on Pretraining Transformers from Scratch for IR
- arxiv url: http://arxiv.org/abs/2301.10444v1
- Date: Wed, 25 Jan 2023 07:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:48:46.301413
- Title: An Experimental Study on Pretraining Transformers from Scratch for IR
- Title(参考訳): ir用スクラッチ用予訓練変圧器に関する実験的検討
- Authors: Carlos Lassance, Herv\'e D\'ejean, St\'ephane Clinchant
- Abstract要約: トレーニング前の収集が最終的なIR効果に与える影響について検討した。
一般の信仰とは対照的に、第1段階のランク付けを微調整する場合には、コレクションのみに事前訓練されたモデルが同等あるいはより良い有効性を持つことを示す。
- 参考スコア(独自算出の注目度): 4.846481187196809
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Finetuning Pretrained Language Models (PLM) for IR has been de facto the
standard practice since their breakthrough effectiveness few years ago. But, is
this approach well understood? In this paper, we study the impact of the
pretraining collection on the final IR effectiveness. In particular, we
challenge the current hypothesis that PLM shall be trained on a large enough
generic collection and we show that pretraining from scratch on the collection
of interest is surprisingly competitive with the current approach. We benchmark
first-stage ranking rankers and cross-encoders for reranking on the task of
general passage retrieval on MSMARCO, Mr-Tydi for Arabic, Japanese and Russian,
and TripClick for specific domain. Contrary to popular belief, we show that,
for finetuning first-stage rankers, models pretrained solely on their
collection have equivalent or better effectiveness compared to more general
models. However, there is a slight effectiveness drop for rerankers pretrained
only on the target collection. Overall, our study sheds a new light on the role
of the pretraining collection and should make our community ponder on building
specialized models by pretraining from scratch. Last but not least, doing so
could enable better control of efficiency, data bias and replicability, which
are key research questions for the IR community.
- Abstract(参考訳): 数年前から、IRのための訓練済み言語モデル(PLM)のファインタニングは、事実上標準のプラクティスとなっている。
しかし、このアプローチはよく理解されていますか?
本稿では,事前学習コレクションが最終的なIR効果に与える影響について検討する。
特に,PLMが十分に大規模な汎用コレクションで訓練されるという現在の仮説に挑戦し,関心の収集をゼロから事前学習することは,現在のアプローチと驚くほど競合することを示す。
我々は,msmarcoの一般通路検索,アラビア語,日本語,ロシア語のmr-tydi,特定のドメインのtripclickについて,第1段階のランク付けとクロスエンコーダの評価を行った。
一般に信じられているのとは対照的に,第1段階のランク付けを微調整する上で,事前学習したモデルが,より一般的なモデルと同等あるいは良好な効果を持つことを示す。
しかし、ターゲットコレクションでのみ事前学習されたリカウンタには、わずかな有効性低下がある。
全体として,本研究では,事前学習収集の役割に新たな光を当て,ゼロから事前学習を行うことで,特別なモデルの構築をコミュニティにより深く検討するべきである。
最後に重要なことは、IRコミュニティにとって重要な研究課題である効率性、データのバイアス、複製性の向上を可能にすることだ。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates [11.90029443742706]
本研究は,ローランド適応(LoRA)のランクが,事前学習の基礎課題の忘れ方,可塑性およびその後の課題の忘れ方に及ぼす影響について検討する。
また、この方法で微調整された視覚トランスフォーマーは、残余のネットワークでは観測できないような、ある種の文脈的「忘れ」を示す。
論文 参考訳(メタデータ) (2024-05-28T11:29:25Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Flipped Classroom: Effective Teaching for Time Series Forecasting [0.0]
LSTMとGRUに基づくシーケンス・ツー・シーケンス・モデルは時系列データの予測において最も一般的な選択肢である。
この文脈における2つの一般的なトレーニング戦略は、教師強制(TF)とフリーランニング(FR)である。
いくつかの新しいカリキュラムを提案し、その性能を2つの実験セットで体系的に評価する。
論文 参考訳(メタデータ) (2022-10-17T11:53:25Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。