論文の概要: Transforming Questions and Documents for Semantically Aligned Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2508.09755v1
- Date: Wed, 13 Aug 2025 12:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.882952
- Title: Transforming Questions and Documents for Semantically Aligned Retrieval-Augmented Generation
- Title(参考訳): セマンティック・アライメントされた検索世代のための質問と文書の変換
- Authors: Seokgi Lee,
- Abstract要約: マルチホップ質問応答に適した新しい検索拡張世代(RAG)フレームワークを提案する。
本システムは,大規模言語モデル(LLM)を用いて,複雑なマルチホップ質問を文書検索を導く単一ホップ要求列に分解する。
生文書やチャンクを直接埋め込む代わりに、Qwen3-8Bを使って各文書チャンクから回答可能な質問を生成し、これらの生成された質問を埋め込んで、質問-問合せの類似性を通じて関連チャンクを検索する。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel retrieval-augmented generation (RAG) framework tailored for multihop question answering. First, our system uses large language model (LLM) to decompose complex multihop questions into a sequence of single-hop subquestions that guide document retrieval. This decomposition mitigates the ambiguity inherent in multi-hop queries by clearly targeting distinct knowledge facets. Second, instead of embedding raw or chunked documents directly, we generate answerable questions from each document chunk using Qwen3-8B, embed these generated questions, and retrieve relevant chunks via question-question embedding similarity. During inference, the retrieved chunks are then fed along with the original question into the RAG pipeline. We evaluate on three multihop question datasets (MuSiQue, 2WikiMultiHopQa, HotpotQA) from LongBench. Our method improves RAG performacne compared to baseline systems. Our contributions highlight the benefits of using answerable-question embeddings for RAG, and the effectiveness of LLM-based query decomposition for multihop scenarios.
- Abstract(参考訳): マルチホップ質問応答に適した新しい検索拡張世代(RAG)フレームワークを提案する。
まず,大規模言語モデル(LLM)を用いて,複雑なマルチホップ質問を文書検索を導く単一ホップ要求列に分解する。
この分解により、マルチホップクエリに固有の曖昧さが軽減される。
第2に、生文書やチャンクを直接埋め込む代わりに、Qwen3-8Bを用いて各文書チャンクから回答可能な質問を生成し、これら生成された質問を埋め込んで、質問-問合せの類似性を介して関連チャンクを検索する。
推論中、取得したチャンクは元の質問と共にRAGパイプラインに送られる。
我々は,LongBenchのマルチホップ質問データセット (MuSiQue, 2WikiMultiHopQa, HotpotQA) について検討した。
本手法はベースラインシステムと比較してRAG性能を向上する。
我々のコントリビューションは、RAGに応答可能な問合せ埋め込みを使用することの利点と、マルチホップシナリオに対するLLMベースのクエリ分解の有効性を強調した。
関連論文リスト
- The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - Question Decomposition for Retrieval-Augmented Generation [2.6409776648054764]
本稿では疑問分解をサブクエストに組み込んだRAGパイプラインを提案する。
補間的な文書を効果的に組み立てる一方で、再ランク付けによってノイズが減少することを示す。
再ランク自体は標準的なものであるが、LLMによる質問分解と既製のクロスエンコーダのペアリングは、マルチホップ質問の検索ギャップを橋渡しすることを示す。
論文 参考訳(メタデータ) (2025-07-01T01:01:54Z) - TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering [27.37434534716611]
TreeHopはマルチホップ質問応答のための埋め込みレベルのフレームワークである。
TreeHopはクエリの埋め込みを動的に更新する。
TreeHopは、知識集約型アプリケーションにデプロイするための、より速く、よりコスト効率の良いソリューションです。
論文 参考訳(メタデータ) (2025-04-28T01:56:31Z) - Optimizing Multi-Hop Document Retrieval Through Intermediate Representations [1.99038892363306]
Retrieval-augmented Generation (RAG)は、複雑なクエリ、特にマルチホップ質問に対処する際の課題に遭遇する。
次ホップ情報を取得する中間層からの中間表現を利用して外部知識を抽出するレイヤワイドRAG(L-RAG)を提案する。
実験の結果、L-RAGはオープンドメインのマルチホップ質問応答データセット上で既存のRAG法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-02T11:33:22Z) - QuOTE: Question-Oriented Text Embeddings [8.377715521597292]
QuOTE(Question-Oriented Text Embeddings)は、検索強化世代(RAG)システムへの新たな拡張である。
従来のRAGパイプラインとは異なり、QuOTEは、チャンクが潜在的に答えうる仮説的な質問でチャンクを拡張する。
マルチホップ質問応答タスクを含め,QuOTEは検索精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-16T03:37:13Z) - EfficientRAG: Efficient Retriever for Multi-Hop Question Answering [52.64500643247252]
マルチホップ質問応答のための効率的な検索器であるEfficientRAGを紹介する。
実験の結果、EfficientRAGは3つのオープンドメインのマルチホップ質問応答データセット上で既存のRAG手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-08-08T06:57:49Z) - Improving Question Generation with Multi-level Content Planning [70.37285816596527]
本稿では、与えられたコンテキストと回答から質問を生成する問題に対処し、特に拡張されたコンテキストをまたいだマルチホップ推論を必要とする質問に焦点をあてる。
具体的には、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成した全回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントを含む。
論文 参考訳(メタデータ) (2023-10-20T13:57:01Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Answering Any-hop Open-domain Questions with Iterative Document
Reranking [62.76025579681472]
オープンドメインの問に答える統合QAフレームワークを提案する。
提案手法は,シングルホップおよびマルチホップのオープンドメインQAデータセットにおいて,最先端技術に匹敵する性能を継続的に達成する。
論文 参考訳(メタデータ) (2020-09-16T04:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。