論文の概要: QAEncoder: Towards Aligned Representation Learning in Question Answering System
- arxiv url: http://arxiv.org/abs/2409.20434v1
- Date: Mon, 30 Sep 2024 15:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 06:50:32.288296
- Title: QAEncoder: Towards Aligned Representation Learning in Question Answering System
- Title(参考訳): QAEncoder:質問応答システムにおける適応表現学習を目指して
- Authors: Zhengren Wang, Qinhan Yu, Shida Wei, Zhiyu Li, Feiyu Xiong, Xiaoxing Wang, Simin Niu, Hao Liang, Wentao Zhang,
- Abstract要約: ユーザクエリとドキュメント間のギャップを埋めるトレーニング不要のアプローチであるQAEncoderを紹介します。
QAEncoderは、埋め込み空間における潜在的クエリの期待を、ドキュメント埋め込みの堅牢なサロゲートとして見積もっている。
文書の指紋を添付して、これらの埋め込みを効果的に識別する。
- 参考スコア(独自算出の注目度): 25.283922985211397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern QA systems entail retrieval-augmented generation (RAG) for accurate and trustworthy responses. However, the inherent gap between user queries and relevant documents hinders precise matching. Motivated by our conical distribution hypothesis, which posits that potential queries and documents form a cone-like structure in the embedding space, we introduce QAEncoder, a training-free approach to bridge this gap. Specifically, QAEncoder estimates the expectation of potential queries in the embedding space as a robust surrogate for the document embedding, and attaches document fingerprints to effectively distinguish these embeddings. Extensive experiments on fourteen embedding models across six languages and eight datasets validate QAEncoder's alignment capability, which offers a plug-and-play solution that seamlessly integrates with existing RAG architectures and training-based methods.
- Abstract(参考訳): 現代のQAシステムは、正確で信頼性の高い応答に対して、検索拡張生成(RAG)を必要とする。
しかし、ユーザクエリと関連するドキュメントの本質的にのギャップは、正確なマッチングを妨げる。
埋め込み空間において,潜在的クエリやドキュメントがコーンのような構造を形成することを仮定した円錐分布仮説に動機づけられたQAEncoderを導入し,このギャップを埋める学習自由なアプローチを提案する。
具体的には、QAEncoderは、埋め込み空間における潜在的クエリの期待を文書埋め込みの堅牢なサロゲートとして推定し、これらの埋め込みを効果的に区別するために文書指紋を添付する。
6つの言語と8つのデータセットにまたがる14の埋め込みモデルに関する大規模な実験は、既存のRAGアーキテクチャとトレーニングベースのメソッドをシームレスに統合するプラグイン・アンド・プレイソリューションを提供するQAEncoderのアライメント能力を検証する。
関連論文リスト
- Merging Generated and Retrieved Knowledge for Open-Domain QA [72.42262579925911]
COMBOは、より良いオープンドメインQAフレームワークのための互換性指向の知識の融合である。
COMBOは4つのテスト済みオープンドメインQAベンチマークのうち3つで競合ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-22T19:37:06Z) - Hyperbolic Code Retrieval: A Novel Approach for Efficient Code Search
Using Hyperbolic Space Embeddings [6.838615442552715]
我々は,HyCoQA(Hyperbolic Code QA Matching)という,高度なコード検索のための新しい手法を提案する。
このアプローチは、コードフラグメントとそれに対応するクエリ間の接続を表現するために、Hyperbolic空間のユニークな特性を活用する。
実験によりHyCoQAは,最先端のコード検索技術と比較して平均3.5%から4%の性能向上を示した。
論文 参考訳(メタデータ) (2023-08-29T11:45:20Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual
Question Answering [16.52970318866536]
本稿では,視覚的質問応答タスクのカテゴリについて検討する。
OK-VQAシステムの開発における大きなステップは、与えられたマルチモーダルクエリに関連するドキュメントを取得することである。
そこで本稿では,OK-VQAタスクの経路検索モデルの事前学習のための自動データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-28T18:06:40Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering [6.224211330728391]
研究者は貴重な技術知識を含む何千もの学術文書を作成した。
文書レベルの質問応答(QA)は、人間の提案する質問を適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
論文 参考訳(メタデータ) (2022-10-04T23:33:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Sparse, Dense, and Attentional Representations for Text Retrieval [25.670835450331943]
デュアルエンコーダは、文書やクエリを高密度な低次元ベクトルに符号化することで検索を行う。
単語の疎結合モデルや注目ニューラルネットワークと比較して,このアーキテクチャのキャパシティについて検討する。
本稿では,2重エンコーダの効率性と,よりコストのかかる注目アーキテクチャの表現性を結合した単純なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-05-01T02:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。