論文の概要: Multi-View Document Representation Learning for Open-Domain Dense
Retrieval
- arxiv url: http://arxiv.org/abs/2203.08372v1
- Date: Wed, 16 Mar 2022 03:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 15:32:21.386529
- Title: Multi-View Document Representation Learning for Open-Domain Dense
Retrieval
- Title(参考訳): オープンドメインDense Retrievalのためのマルチビュー文書表現学習
- Authors: Shunyu Zhang, Yaobo Liang, Ming Gong, Daxin Jiang, Nan Duan
- Abstract要約: 本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 87.11836738011007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval has achieved impressive advances in first-stage retrieval
from a large-scale document collection, which is built on bi-encoder
architecture to produce single vector representation of query and document.
However, a document can usually answer multiple potential queries from
different views. So the single vector representation of a document is hard to
match with multi-view queries, and faces a semantic mismatch problem. This
paper proposes a multi-view document representation learning framework, aiming
to produce multi-view embeddings to represent documents and enforce them to
align with different queries. First, we propose a simple yet effective method
of generating multiple embeddings through viewers. Second, to prevent
multi-view embeddings from collapsing to the same one, we further propose a
global-local loss with annealed temperature to encourage the multiple viewers
to better align with different potential queries. Experiments show our method
outperforms recent works and achieves state-of-the-art results.
- Abstract(参考訳): Dense検索は、クエリとドキュメントの単一のベクトル表現を生成するために、バイエンコーダアーキテクチャ上に構築された大規模なドキュメントコレクションから、第1段階の検索において顕著な進歩を遂げた。
しかし、ドキュメントは通常、異なるビューから複数の潜在的クエリに答えることができる。
したがって、文書の単一のベクトル表現は、マルチビュークエリと一致しにくく、セマンティックなミスマッチ問題に直面している。
本稿では,多視点文書表現学習フレームワークを提案する。
まず、ビューアを通して複数の埋め込みを生成する簡易かつ効果的な方法を提案する。
第2に,マルチビュー埋め込みが同一のビューに崩壊することを防止するため,複数のビューアが異なる潜在的クエリによりよく対応できるように,アニール温度によるグローバルローカルロスを提案する。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。
これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。
この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:26:14Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。