論文の概要: QAEncoder: Towards Aligned Representation Learning in Question Answering Systems
- arxiv url: http://arxiv.org/abs/2409.20434v3
- Date: Wed, 02 Jul 2025 15:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 22:56:23.335118
- Title: QAEncoder: Towards Aligned Representation Learning in Question Answering Systems
- Title(参考訳): QAEncoder:質問応答システムにおける適応表現学習を目指して
- Authors: Zhengren Wang, Qinhan Yu, Shida Wei, Zhiyu Li, Feiyu Xiong, Xiaoxing Wang, Simin Niu, Hao Liang, Wentao Zhang,
- Abstract要約: QAEncoderは、ユーザクエリとドキュメント間のギャップを埋める、トレーニング不要のアプローチである。
これは、埋め込み空間における潜在的クエリの期待を、文書埋め込みの堅牢なサロゲートとして推定し、これらの埋め込みを区別するために文書指紋を添付する。
インデックスストレージのゼロ,検索レイテンシ,トレーニングコスト,あるいは破滅的な忘れと幻覚の問題といった,シンプルなメリットのあるソリューションを提供する。
- 参考スコア(独自算出の注目度): 25.283922985211397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern QA systems entail retrieval-augmented generation (RAG) for accurate and trustworthy responses. However, the inherent gap between user queries and relevant documents hinders precise matching. We introduce QAEncoder, a training-free approach to bridge this gap. Specifically, QAEncoder estimates the expectation of potential queries in the embedding space as a robust surrogate for the document embedding, and attaches document fingerprints to effectively distinguish these embeddings. Extensive experiments across diverse datasets, languages, and embedding models confirmed QAEncoder's alignment capability, which offers a simple-yet-effective solution with zero additional index storage, retrieval latency, training costs, or catastrophic forgetting and hallucination issues. The repository is publicly available at https://github.com/IAAR-Shanghai/QAEncoder.
- Abstract(参考訳): 現代のQAシステムは、正確で信頼性の高い応答に対して、検索拡張生成(RAG)を必要とする。
しかし、ユーザクエリと関連するドキュメントの本質的にのギャップは、正確なマッチングを妨げる。
このギャップを埋めるためのトレーニング不要なアプローチであるQAEncoderを紹介します。
具体的には、QAEncoderは、埋め込み空間における潜在的クエリの期待を文書埋め込みの堅牢なサロゲートとして推定し、これらの埋め込みを効果的に区別するために文書指紋を添付する。
さまざまなデータセット、言語、埋め込みモデルにわたる広範な実験により、QAEncoderのアライメント能力が確認された。
リポジトリはhttps://github.com/IAAR-Shanghai/QAEncoder.comで公開されている。
関連論文リスト
- Can we repurpose multiple-choice question-answering models to rerank retrieved documents? [0.0]
R* は概念実証モデルであり、文書の再ランク付けのための多重選択質問回答(MCQA)モデルを調和させる。
実験的な検証により、R*は検索精度を向上し、フィールドの進歩に寄与することが証明される。
論文 参考訳(メタデータ) (2025-03-06T17:53:24Z) - Multi-Facet Blending for Faceted Query-by-Example Retrieval [5.156059061769101]
本稿では,多面体ブレンディング(FaBle)拡張法を提案する。
モジュール化によって、事前に定義されたファセットの知識やラベルが不要になります。
1K文書上のFaBle拡張は、ファセット条件埋め込みの訓練を著しく支援する。
論文 参考訳(メタデータ) (2024-12-02T12:32:19Z) - HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA [13.000411428297813]
コンテンツにカスケードメタデータと複数ルート検索機構を統合した,高度な多文書質問応答(MDQA)フレームワークであるHiQAを提案する。
また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。
論文 参考訳(メタデータ) (2024-02-01T02:24:15Z) - Merging Generated and Retrieved Knowledge for Open-Domain QA [72.42262579925911]
COMBOは、より良いオープンドメインQAフレームワークのための互換性指向の知識の融合である。
COMBOは4つのテスト済みオープンドメインQAベンチマークのうち3つで競合ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-22T19:37:06Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual
Question Answering [16.52970318866536]
本稿では,視覚的質問応答タスクのカテゴリについて検討する。
OK-VQAシステムの開発における大きなステップは、与えられたマルチモーダルクエリに関連するドキュメントを取得することである。
そこで本稿では,OK-VQAタスクの経路検索モデルの事前学習のための自動データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-28T18:06:40Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering [6.224211330728391]
研究者は貴重な技術知識を含む何千もの学術文書を作成した。
文書レベルの質問応答(QA)は、人間の提案する質問を適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
論文 参考訳(メタデータ) (2022-10-04T23:33:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Sparse, Dense, and Attentional Representations for Text Retrieval [25.670835450331943]
デュアルエンコーダは、文書やクエリを高密度な低次元ベクトルに符号化することで検索を行う。
単語の疎結合モデルや注目ニューラルネットワークと比較して,このアーキテクチャのキャパシティについて検討する。
本稿では,2重エンコーダの効率性と,よりコストのかかる注目アーキテクチャの表現性を結合した単純なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-05-01T02:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。