論文の概要: Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG
- arxiv url: http://arxiv.org/abs/2505.20871v1
- Date: Tue, 27 May 2025 08:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.504375
- Title: Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG
- Title(参考訳): ディバイド・アライメント:RAGの知識境界に基づく正直なアライメント
- Authors: Xin Sun, Jianan Xie, Zhongqi Chen, Qiang Liu, Shu Wu, Yuehe Chen, Bowen Song, Weiqiang Wang, Zilei Wang, Liang Wang,
- Abstract要約: 本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
- 参考スコア(独自算出の注目度): 51.120170062795566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) augmented with retrieval systems have significantly advanced natural language processing tasks by integrating external knowledge sources, enabling more accurate and contextually rich responses. To improve the robustness of such systems against noisy retrievals, Retrieval-Augmented Fine-Tuning (RAFT) has emerged as a widely adopted method. However, RAFT conditions models to generate answers even in the absence of reliable knowledge. This behavior undermines their reliability in high-stakes domains, where acknowledging uncertainty is critical. To address this issue, we propose Divide-Then-Align (DTA), a post-training approach designed to endow RAG systems with the ability to respond with "I don't know" when the query is out of the knowledge boundary of both the retrieved passages and the model's internal knowledge. DTA divides data samples into four knowledge quadrants and constructs tailored preference data for each quadrant, resulting in a curated dataset for Direct Preference Optimization (DPO). Experimental results on three benchmark datasets demonstrate that DTA effectively balances accuracy with appropriate abstention, enhancing the reliability and trustworthiness of retrieval-augmented systems.
- Abstract(参考訳): 検索システムで強化された大規模言語モデル(LLM)は、外部の知識ソースを統合することで、より正確で文脈的にリッチな応答を可能にすることにより、自然言語処理タスクを大幅に進歩させる。
ノイズ検索に対するシステムのロバスト性を改善するため,RAFT(Retrieval-Augmented Fine-Tuning)が広く採用されている。
しかし、RAFT条件は、信頼できる知識がなくても答えを生成できる。
この行動は、不確実性を認めることが重要となる高い領域における信頼性を損なう。
この問題に対処するために、我々は、検索されたパスとモデルの内部知識の両方の知識境界外にある場合、問合せに"I don't know"で応答する機能を備えたRAGシステムを支援するために設計された訓練後アプローチであるDigide-Then-Align (DTA)を提案する。
DTAは、データサンプルを4つの知識四分儀に分割し、各四分儀のカスタマイズされた嗜好データを構築し、結果として直接選好最適化(DPO)のためのキュレートデータセットを生成する。
3つのベンチマークデータセットによる実験結果から、DTAは精度と適切な棄却のバランスを効果的に保ち、検索強化システムの信頼性と信頼性を高めることが示されている。
関連論文リスト
- After Retrieval, Before Generation: Enhancing the Trustworthiness of Large Language Models in RAG [13.603907803297561]
RAGシステムは、内部(パラメトリック)と外部(検索)の知識のバランスをとる際の課題に直面します。
本稿では,大規模言語モデルの包括的応答戦略を動的に決定するBRIDGEフレームワークを提案する。
実験では、BRIDGEはすべてのシナリオでバランスの取れたパフォーマンスを維持しながら、ベースラインを5~15%精度で上回っている。
論文 参考訳(メタデータ) (2025-05-21T16:29:19Z) - Trustworthy Answers, Messier Data: Bridging the Gap in Low-Resource Retrieval-Augmented Generation for Domain Expert Systems [7.76315323320043]
生のマルチモーダルデータを構造化コーパスとQ&Aペアに変換するデータ生成パイプラインを導入する。
本システムは,非RAGベースライン上での事実正当性(+1.94),報知性(+1.16),助力性(+1.67)を改善する。
結果は、強い答えの根拠と透明性によって、異なる側面にわたるアプローチの有効性を強調します。
論文 参考訳(メタデータ) (2025-02-26T22:20:08Z) - RbFT: Robust Fine-tuning for Retrieval-Augmented Generation against Retrieval Defects [12.5122702720856]
本稿では,検索欠陥に対する大規模言語モデルのレジリエンスを高めるために,Robust Fine-Tuning (RbFT)を提案する。
実験の結果,RbFTは多様な検索条件におけるRAGシステムのロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-30T14:15:09Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation [64.7982176398485]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚化問題を緩和する効果を実証している。
本稿では,RAGシステム内での多様な知識嗜好の整合を図った汎用フレームワークであるDPA-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-26T18:26:53Z) - Improving Factual Consistency for Knowledge-Grounded Dialogue Systems
via Knowledge Enhancement and Alignment [77.56326872997407]
事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。
トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,事実表現能力を効率的に改善するための2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-12T14:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。