論文の概要: Agentic Verification for Ambiguous Query Disambiguation
- arxiv url: http://arxiv.org/abs/2502.10352v1
- Date: Fri, 14 Feb 2025 18:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:51.129006
- Title: Agentic Verification for Ambiguous Query Disambiguation
- Title(参考訳): あいまいなクエリの曖昧さに対するエージェント検証
- Authors: Youngwon Lee, Seung-won Hwang, Ruofan Wu, Feng Yan, Danmei Xu, Moutasem Akkad, Zhewei Yao, Yuxiong He,
- Abstract要約: 本稿では,検索拡張世代(RAG)における問合せの曖昧化という課題に対処する。
本稿では,早期にレシーバとジェネレータからのフィードバックを取り入れて,ダイバーシフィケーションと検証を一体化するための共同手法を提案する。
広く採用されているASQAベンチマークにおいて,本手法の有効性と有効性を検証し,多種多様かつ検証可能な解釈を実現する。
- 参考スコア(独自算出の注目度): 42.238086712267396
- License:
- Abstract: In this work, we tackle the challenge of disambiguating queries in retrieval-augmented generation (RAG) to diverse yet answerable interpretations. State-of-the-arts follow a Diversify-then-Verify (DtV) pipeline, where diverse interpretations are generated by an LLM, later used as search queries to retrieve supporting passages. Such a process may introduce noise in either interpretations or retrieval, particularly in enterprise settings, where LLMs -- trained on static data -- may struggle with domain-specific disambiguations. Thus, a post-hoc verification phase is introduced to prune noises. Our distinction is to unify diversification with verification by incorporating feedback from retriever and generator early on. This joint approach improves both efficiency and robustness by reducing reliance on multiple retrieval and inference steps, which are susceptible to cascading errors. We validate the efficiency and effectiveness of our method, Verified-Diversification with Consolidation (VERDICT), on the widely adopted ASQA benchmark to achieve diverse yet verifiable interpretations. Empirical results show that VERDICT improves grounding-aware F1 score by an average of 23% over the strongest baseline across different backbone LLMs.
- Abstract(参考訳): 本研究では,検索拡張世代(RAG)における問合せの曖昧さに対処し,多様な解答可能な解釈に挑戦する。
State-of-the-artsはDiversify-then-Verify (DtV)パイプラインに従っており、様々な解釈がLLMによって生成される。
このようなプロセスは、解釈や検索、特に静的データに基づいてトレーニングされたLLMがドメイン固有の曖昧さに苦しむエンタープライズ環境でノイズを発生させる可能性がある。
これにより、プルーノイズに対するポストホック検証フェーズが導入された。
我々の区別は、早期にレトリバーとジェネレータからのフィードバックを取り入れることで、多様化と検証を両立させることである。
このジョイントアプローチは、カスケードエラーの影響を受ける複数の検索と推論ステップへの依存を減らすことにより、効率性と堅牢性の両方を改善する。
我々は,広く採用されているASQAベンチマークにおいて,本手法の有効性と妥当性を検証し,多種多様かつ検証可能な解釈を実現する。
実験の結果,VERDICTは異なる背骨LLMにおいて最強のベースラインを平均23%上回り,グラウンドディング・アウェア F1 スコアを平均23%向上させることがわかった。
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation [38.80878966092216]
大規模言語モデル(LLM)の強化を目的とした最近の検索拡張生成(RAG)
本稿では,外部検索の正しさと内部生成の整合性を高めるためのチェーン・オブ・バリフィケーション(CoV-RAG)を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:34:54Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering [45.154063285999015]
検索拡張生成(RAG)フレームワークは、QAシステムにおけるユーザクエリのあいまいさに対処する。
RAGは、すべてのもっともらしい解釈をカバーし、包括的な応答を生成する。
しかし、単一の検索プロセスは、しばしば品質の低い結果に悩まされる。
本稿では,DIVA(Diversify-verify-Adapt)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T01:14:04Z) - Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework [41.47029501736853]
本稿では,マルコフ連鎖に基づくマルチエージェント論争検証フレームワークを提案し,簡潔なクレームにおける幻覚検出精度を向上させる。
本手法は,クレーム検出,エビデンス検索,マルチエージェント検証を含むファクトチェック処理を統合する。
論文 参考訳(メタデータ) (2024-06-05T08:59:45Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs [80.74263278847063]
検索されたパスと大きな言語モデル(LLM)の統合は、オープンドメインの質問応答の改善に大きく貢献している。
本稿では,検索したパスをLLMと組み合わせて回答生成を向上させる方法について検討する。
論文 参考訳(メタデータ) (2023-08-24T05:26:54Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - LoL: A Comparative Regularization Loss over Query Reformulation Losses
for Pseudo-Relevance Feedback [70.44530794897861]
Pseudo-Relevance feedback (PRF) は、検索精度を向上させるための効果的なクエリ修正手法であることが証明されている。
既存のPRF手法は、同じクエリから派生した修正クエリを個別に扱うが、異なる数のフィードバックドキュメントを使用する。
そこで我々はLos-over-Loss(LoL)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-25T10:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。