論文の概要: Long Document Re-ranking with Modular Re-ranker
- arxiv url: http://arxiv.org/abs/2205.04275v1
- Date: Mon, 9 May 2022 13:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 16:19:53.942312
- Title: Long Document Re-ranking with Modular Re-ranker
- Title(参考訳): Modular Re-rankerを用いたLong Document Re- rank
- Authors: Luyu Gao, Jamie Callan
- Abstract要約: BERTのようなディープ言語モデルに基づくニューラルリランカにとって、長いドキュメント再ランクは難しい問題だった。
本稿では,アテンション操作とモジュラートランスフォーマー・リランカ・フレームワークを活用した,完全な問合せ-文書間相互作用のモデル化を提案する。
- 参考スコア(独自算出の注目度): 15.935423344245363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long document re-ranking has been a challenging problem for neural re-rankers
based on deep language models like BERT. Early work breaks the documents into
short passage-like chunks. These chunks are independently mapped to scalar
scores or latent vectors, which are then pooled into a final relevance score.
These encode-and-pool methods however inevitably introduce an information
bottleneck: the low dimension representations. In this paper, we propose
instead to model full query-to-document interaction, leveraging the attention
operation and modular Transformer re-ranker framework. First, document chunks
are encoded independently with an encoder module. An interaction module then
encodes the query and performs joint attention from the query to all document
chunk representations. We demonstrate that the model can use this new degree of
freedom to aggregate important information from the entire document. Our
experiments show that this design produces effective re-ranking on two
classical IR collections Robust04 and ClueWeb09, and a large-scale supervised
collection MS-MARCO document ranking.
- Abstract(参考訳): BERTのようなディープ言語モデルに基づくニューラルリランカにとって、長いドキュメント再ランクは難しい問題だった。
初期の作業では、ドキュメントを短い文節のようなチャンクに分解する。
これらのチャンクは独立してスカラースコアや潜在ベクトルにマッピングされ、最終関連スコアにプールされる。
しかし、これらのエンコード・アンド・プール法は必然的に情報のボトルネック、すなわち低次元表現をもたらす。
本稿では,アテンション操作とモジュール型トランスフォーマー・リランカ・フレームワークを活用した,完全な問合せ-文書間インタラクションのモデル化を提案する。
まず、ドキュメントチャンクはエンコーダモジュールと独立してエンコードされる。
その後、対話モジュールがクエリをエンコードし、クエリからすべてのドキュメントチャンク表現に共同で注目する。
我々は、この新たな自由度を使ってドキュメント全体から重要な情報を収集できることを実証する。
実験の結果、この設計はロバスト04とクリューWeb09の2つの古典的IRコレクションとMS-MARCO文書ランキングを効果的に再ランク付けできることがわかった。
関連論文リスト
- Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z) - Neural Abstractive Summarization with Structural Attention [31.50918718905953]
このような文間依存関係と文書間依存関係をモデル化するための構造的注意に基づく階層型エンコーダを提案する。
提案手法は,単一文書の要約設定と複数文書の要約設定の両方において,ベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。