論文の概要: Transformer Based Language Models for Similar Text Retrieval and Ranking
- arxiv url: http://arxiv.org/abs/2005.04588v2
- Date: Thu, 21 May 2020 04:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 02:05:59.500678
- Title: Transformer Based Language Models for Similar Text Retrieval and Ranking
- Title(参考訳): 類似テキスト検索とランク付けのためのトランスフォーマーに基づく言語モデル
- Authors: Javed Qadrud-Din, Ashraf Bah Rabiou, Ryan Walker, Ravi Soni, Martin
Gajek, Gabriel Pack, Akhil Rangaraj
- Abstract要約: 本稿では,ニューラルトランスモデルを類似したテキスト検索とランキングに効果的に適用するための新しいアプローチを提案する。
提案手法は, 単語のバッグ・オブ・ワード・ベースのステップを排除し, クエリに共通する非単語がなくても, 精度よく検索結果を検索・ランク付けすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most approaches for similar text retrieval and ranking with long natural
language queries rely at some level on queries and responses having words in
common with each other. Recent applications of transformer-based neural
language models to text retrieval and ranking problems have been very
promising, but still involve a two-step process in which result candidates are
first obtained through bag-of-words-based approaches, and then reranked by a
neural transformer. In this paper, we introduce novel approaches for
effectively applying neural transformer models to similar text retrieval and
ranking without an initial bag-of-words-based step. By eliminating the
bag-of-words-based step, our approach is able to accurately retrieve and rank
results even when they have no non-stopwords in common with the query. We
accomplish this by using bidirectional encoder representations from
transformers (BERT) to create vectorized representations of sentence-length
texts, along with a vector nearest neighbor search index. We demonstrate both
supervised and unsupervised means of using BERT to accomplish this task.
- Abstract(参考訳): 類似したテキスト検索と長い自然言語クエリによるランキングのためのほとんどのアプローチは、単語が互いに共通しているクエリやレスポンスに依存する。
最近のトランスフォーマーベースのニューラルネットワークモデルのテキスト検索やランキング問題への応用は、非常に有望なものだったが、それでも2段階のプロセスで、まず単語の袋ベースのアプローチで結果の候補を取得し、次にニューラルネットワークトランスフォーマによってランク付けされる。
本稿では,ニューラルトランスフォーマーモデルに類似のテキスト検索とランキングを効果的に適用するための新しいアプローチを提案する。
bag-of-wordsベースのステップを除外することで、クエリに共通するノンストップワードがなくても、結果を正確に検索しランク付けすることができる。
本研究では、変換器(BERT)からの双方向エンコーダ表現を用いて文長テキストのベクトル化表現と、ベクトル近傍検索インデックスを作成する。
我々は、BERTを用いてこのタスクを遂行する、教師なしと教師なしの両方の手法を実証する。
関連論文リスト
- A Surprisingly Simple yet Effective Multi-Query Rewriting Method for Conversational Passage Retrieval [14.389703823471574]
本稿では,複数のクエリを生成するためのニューラルクエリリライターを提案する。
ビーム検索アルゴリズムの動作方法を活用し、追加コストなしで複数のクエリリライトを生成できます。
論文 参考訳(メタデータ) (2024-06-27T07:43:03Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - KERMIT - A Transformer-Based Approach for Knowledge Graph Matching [1.9981375888949477]
知識グラフとテキスト概念記述の自動マッチングのための最強信号の1つは概念記述である。
2つの知識グラフにおける概念のすべてのテキスト記述のペアワイズ比較を行うことは高価であり、二次的にスケールすることが示されている。
まず,事前学習した文変換器を用いてマッチング候補を生成する。
第2のステップでは、最適な候補を生成するために、微調整変換器クロスエンコーダを使用します。
論文 参考訳(メタデータ) (2022-04-29T08:07:17Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Deep Transformer based Data Augmentation with Subword Units for
Morphologically Rich Online ASR [0.0]
ディープトランスフォーマーモデルは、ASRの言語モデリングタスクにおいて特に強力であることが証明されている。
近年の研究では、ニューラルネットワーク言語モデル(LM)の知識の大部分は、ニューラルテキスト生成に基づくデータ拡張を用いて従来のn-gramに転送可能であることが示されている。
トランスフォーマー生成したテキストによるデータ拡張は、孤立言語ではうまく機能するが、形態的にリッチな言語では語彙が爆発する。
そこで我々は,生成したテキストを統計的に派生したサブワードに再学習する,サブワードベースのニューラルテキスト拡張法を提案する。
論文 参考訳(メタデータ) (2020-07-14T10:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。