論文の概要: Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2404.04163v1
- Date: Fri, 5 Apr 2024 15:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:45:42.549623
- Title: Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval
- Title(参考訳): 言語モデルがDense Retrievalに長いドキュメントを埋め込む方法
- Authors: João Coelho, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong,
- Abstract要約: 我々は、因果言語モデルにおける入力シーケンスの途中の情報損失を実証する以前の研究に基づいて構築した。
エンコーダ・デコーダモデルの訓練段階における位置バイアスについて,言語モデル事前学習,コントラスト事前学習,コントラスト微調整などを検討した。
- 参考スコア(独自算出の注目度): 31.9252824152673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the existence of positional biases in Transformer-based models for text representation learning, particularly in the context of web document retrieval. We build on previous research that demonstrated loss of information in the middle of input sequences for causal language models, extending it to the domain of representation learning. We examine positional biases at various stages of training for an encoder-decoder model, including language model pre-training, contrastive pre-training, and contrastive fine-tuning. Experiments with the MS-MARCO document collection reveal that after contrastive pre-training the model already generates embeddings that better capture early contents of the input, with fine-tuning further aggravating this effect.
- Abstract(参考訳): 本研究では,テキスト表現学習のためのトランスフォーマーモデルにおける位置バイアスの存在について,特にWeb文書検索における検討を行った。
我々は、因果言語モデルの入力シーケンスの途中で情報を失うことを実証し、それを表現学習の領域に拡張した以前の研究に基づいて構築した。
エンコーダ・デコーダモデルの訓練段階における位置バイアスについて,言語モデル事前学習,コントラスト事前学習,コントラスト微調整などを検討した。
MS-MARCO文書コレクションによる実験では、対照的な事前学習の後、モデルはすでに入力の初期の内容をよりよくキャプチャする埋め込みを生成しており、細調整によりこの効果はさらに増大している。
関連論文リスト
- Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Efficient Training of Language Models to Fill in the Middle [17.118891860985123]
自動回帰言語モデルは、データセットに直接的な変換を適用した後、テキストを埋めることを学ぶことができる。
FIMモデルのトレーニングには、デフォルト設定の強い設定とベストプラクティスを規定するために、これらのアブリケーションを使用します。
私たちはAPIのベストプラクティスでトレーニングされた最高のインフィルモデルをリリースし、将来の研究を支援するためにインフィルベンチマークをリリースしました。
論文 参考訳(メタデータ) (2022-07-28T17:40:47Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Tracing Origins: Coref-aware Machine Reading Comprehension [43.352833140317486]
そこで,本研究では,アナフォリック表現を接続する際の人間の読影過程を模倣し,コア参照情報を活用し,事前学習モデルから単語の埋め込みを強化する。
学習段階におけるコア参照情報の明示的な組み込みは,事前学習言語モデルの訓練において,コア参照情報の組み込みよりも優れていたことを実証した。
論文 参考訳(メタデータ) (2021-10-15T09:28:35Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。