論文の概要: Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight
- arxiv url: http://arxiv.org/abs/2308.04756v1
- Date: Wed, 9 Aug 2023 07:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:39:55.403871
- Title: Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight
- Title(参考訳): 新しいドメインのための解釈可能で信頼性の高いオープン情報検索ツールの構築
- Authors: Xiaodong Yu, Ben Zhou, Dan Roth
- Abstract要約: 情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 67.03842581848299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information retrieval (IR) or knowledge retrieval, is a critical component
for many down-stream tasks such as open-domain question answering (QA). It is
also very challenging, as it requires succinctness, completeness, and
correctness. In recent works, dense retrieval models have achieved
state-of-the-art (SOTA) performance on in-domain IR and QA benchmarks by
representing queries and knowledge passages with dense vectors and learning the
lexical and semantic similarity. However, using single dense vectors and
end-to-end supervision are not always optimal because queries may require
attention to multiple aspects and event implicit knowledge. In this work, we
propose an information retrieval pipeline that uses entity/event linking model
and query decomposition model to focus more accurately on different information
units of the query. We show that, while being more interpretable and reliable,
our proposed pipeline significantly improves passage coverages and denotation
accuracies across five IR and QA benchmarks. It will be the go-to system to use
for applications that need to perform IR on a new domain without much dedicated
effort, because of its superior interpretability and cross-domain performance.
- Abstract(参考訳): 情報検索 (IR) または知識検索は、オープンドメイン質問応答 (QA) など、多くのダウンストリームタスクにとって重要な要素である。
簡潔さ、完全性、正確性を必要とするため、非常に難しい。
近年の高密度検索モデルでは、クエリや知識通路を高密度ベクトルで表現し、語彙的および意味的類似性を学習することで、ドメイン内IRおよびQAベンチマーク上でのSOTA(State-of-the-art)性能を実現している。
しかし、クエリは複数の側面やイベントの暗黙の知識に注意を必要とするため、単一の高密度ベクトルとエンドツーエンドの監視が常に最適であるとは限らない。
本研究では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
高い解釈性とクロスドメインパフォーマンスのために、新しいドメインでIRを実行する必要のあるアプリケーションに使用するためのゴーツーシステムである。
関連論文リスト
- Improving Retrieval in Sponsored Search by Leveraging Query Context Signals [6.152499434499752]
本稿では,クエリをリッチなコンテキスト信号で拡張することで,クエリ理解を強化する手法を提案する。
我々は、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使ってクエリの書き直しと説明を生成する。
我々の文脈認識アプローチは文脈自由モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-19T14:28:53Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Prompt-fused framework for Inductive Logical Query Answering [31.736934787328156]
本稿では,Pro-QEという問合せ対応のプロンプトフューズフレームワークを提案する。
論理的クエリにおける未知のエンティティの問題に,我々のモデルがうまく対処できることが示される。
論文 参考訳(メタデータ) (2024-03-19T11:30:30Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Neural Methods for Effective, Efficient, and Exposure-Aware Information
Retrieval [7.3371176873092585]
情報検索の具体的なニーズと課題に動機づけられた新しいニューラルアーキテクチャと手法を紹介します。
多くの実生活のIRタスクにおいて、検索には数十億のドキュメントを含む商用Web検索エンジンのドキュメントインデックスなど、非常に大規模なコレクションが含まれる。
論文 参考訳(メタデータ) (2020-12-21T21:20:16Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。