論文の概要: A Proposed Conceptual Framework for a Representational Approach to
Information Retrieval
- arxiv url: http://arxiv.org/abs/2110.01529v1
- Date: Mon, 4 Oct 2021 15:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:27:55.456171
- Title: A Proposed Conceptual Framework for a Representational Approach to
Information Retrieval
- Title(参考訳): 情報検索への表現的アプローチのための概念的枠組みの提案
- Authors: Jimmy Lin
- Abstract要約: 本稿では,情報検索と自然言語処理における最近の発展を理解するための概念的枠組みについて概説する。
本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
- 参考スコア(独自算出の注目度): 42.67826268399347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper outlines a conceptual framework for understanding recent
developments in information retrieval and natural language processing that
attempts to integrate dense and sparse retrieval methods. I propose a
representational approach that breaks the core text retrieval problem into a
logical scoring model and a physical retrieval model. The scoring model is
defined in terms of encoders, which map queries and documents into a
representational space, and a comparison function that computes query-document
scores. The physical retrieval model defines how a system produces the top-k
scoring documents from an arbitrarily large corpus with respect to a query. The
scoring model can be further analyzed along two dimensions: dense vs. sparse
representations and supervised (learned) vs. unsupervised approaches. I show
that many recently proposed retrieval methods, including multi-stage ranking
designs, can be seen as different parameterizations in this framework, and that
a unified view suggests a number of open research questions, providing a
roadmap for future work. As a bonus, this conceptual framework establishes
connections to sentence similarity tasks in natural language processing and
information access "technologies" prior to the dawn of computing.
- Abstract(参考訳): 本稿では,情報検索と自然言語処理の最近の展開を理解するための概念的枠組みについて概説する。
本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
スコアリングモデルは、クエリとドキュメントを表現空間にマッピングするエンコーダと、クエリ-ドキュメントスコアを計算する比較関数によって定義される。
物理検索モデルは、システムがクエリに対して任意に大きなコーパスからトップkスコアの文書を生成する方法を定義する。
スコアリングモデルは、密度対スパース表現と教師付き(学習)対教師なしアプローチの2次元でさらに分析することができる。
多段階のランキング設計を含む最近提案された多くの検索手法は、このフレームワークにおいて異なるパラメータ化と見なすことができ、統一されたビューは、多くのオープンリサーチの質問を示唆し、将来の作業のためのロードマップを提供する。
ボーナスとして、この概念的枠組みは、自然言語処理と情報アクセスの「技術」における文の類似性タスクとの接続を確立する。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z) - Message Passing Query Embedding [4.035753155957698]
本稿では,クエリのグラフ表現を符号化するグラフニューラルネットワークを提案する。
モデルは、明示的な監督なしにエンティティタイプの概念を捉えたエンティティ埋め込みを学習することを示します。
論文 参考訳(メタデータ) (2020-02-06T17:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。