Fugu-MT 論文翻訳(概要): Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval

論文の概要: Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval

arxiv url: http://arxiv.org/abs/2404.04163v1
Date: Fri, 5 Apr 2024 15:16:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 15:45:42.549623
Title: Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval
Title（参考訳）: 言語モデルがDense Retrievalに長いドキュメントを埋め込む方法
Authors: João Coelho, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong,
Abstract要約: 我々は、因果言語モデルにおける入力シーケンスの途中の情報損失を実証する以前の研究に基づいて構築した。エンコーダ・デコーダモデルの訓練段階における位置バイアスについて,言語モデル事前学習,コントラスト事前学習,コントラスト微調整などを検討した。
参考スコア（独自算出の注目度）: 31.9252824152673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study investigates the existence of positional biases in Transformer-based models for text representation learning, particularly in the context of web document retrieval. We build on previous research that demonstrated loss of information in the middle of input sequences for causal language models, extending it to the domain of representation learning. We examine positional biases at various stages of training for an encoder-decoder model, including language model pre-training, contrastive pre-training, and contrastive fine-tuning. Experiments with the MS-MARCO document collection reveal that after contrastive pre-training the model already generates embeddings that better capture early contents of the input, with fine-tuning further aggravating this effect.
Abstract（参考訳）: 本研究では,テキスト表現学習のためのトランスフォーマーモデルにおける位置バイアスの存在について,特にWeb文書検索における検討を行った。我々は、因果言語モデルの入力シーケンスの途中で情報を失うことを実証し、それを表現学習の領域に拡張した以前の研究に基づいて構築した。エンコーダ・デコーダモデルの訓練段階における位置バイアスについて,言語モデル事前学習,コントラスト事前学習,コントラスト微調整などを検討した。 MS-MARCO文書コレクションによる実験では、対照的な事前学習の後、モデルはすでに入力の初期の内容をよりよくキャプチャする埋め込みを生成しており、細調整によりこの効果はさらに増大している。

関連論文リスト

Evolution of Concepts in Language Model Pre-Training [53.994470178155105]
クロスコーダと呼ばれるスパース辞書学習手法を用いて,事前学習スナップショットにおける線形解釈可能な特徴の進化を追跡する。ほとんどの機能が特定のポイントの周りに形成され始め、さらに複雑なパターンが後のトレーニング段階に現れます。
論文参考訳（メタデータ） (2025-09-21T18:53:12Z)
An Attempt to Unraveling Token Prediction Refinement and Identifying Essential Layers of Large Language Models [0.0]
本研究の目的は,大規模言語モデル (LLM) がいかに反復的にトークン予測を洗練するかを明らかにすることである。我々は、LLMが入力コンテキストから情報にアクセスして利用する方法と、関連する情報の配置がモデルのトークン予測改善プロセスにどのように影響するかに焦点を当てた。
論文参考訳（メタデータ） (2025-01-25T03:34:15Z)
Language Model Meets Prototypes: Towards Interpretable Text Classification Models through Prototypical Networks [1.1711824752079485]
論文は、LMをエンコーダとして使用する際に本質的に解釈可能なモデルを開発することに焦点を当てている。ホワイトボックスのマルチヘッドグラフアテンションに基づくプロトタイプネットワークを開発した。私は、解釈可能なグラフニューラルネットワークを再設計するために、コントラスト学習による注意ベースのプロトタイプネットワークの拡張に取り組んでいます。
論文参考訳（メタデータ） (2024-12-04T22:59:35Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Efficient Training of Language Models to Fill in the Middle [17.118891860985123]
自動回帰言語モデルは、データセットに直接的な変換を適用した後、テキストを埋めることを学ぶことができる。 FIMモデルのトレーニングには、デフォルト設定の強い設定とベストプラクティスを規定するために、これらのアブリケーションを使用します。私たちはAPIのベストプラクティスでトレーニングされた最高のインフィルモデルをリリースし、将来の研究を支援するためにインフィルベンチマークをリリースしました。
論文参考訳（メタデータ） (2022-07-28T17:40:47Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Tracing Origins: Coref-aware Machine Reading Comprehension [43.352833140317486]
そこで,本研究では,アナフォリック表現を接続する際の人間の読影過程を模倣し,コア参照情報を活用し,事前学習モデルから単語の埋め込みを強化する。学習段階におけるコア参照情報の明示的な組み込みは,事前学習言語モデルの訓練において,コア参照情報の組み込みよりも優れていたことを実証した。
論文参考訳（メタデータ） (2021-10-15T09:28:35Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2020-08-11T03:55:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。