論文の概要: KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2408.03297v2
- Date: Mon, 19 Aug 2024 10:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:45:42.837860
- Title: KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
- Title(参考訳): KnowPO:Retrieval-Augmented Language Modelにおける制御可能な知識選択のための知識認識参照最適化
- Authors: Ruizhe Zhang, Yongxin Xu, Yuzhen Xiao, Runchuan Zhu, Xinke Jiang, Xu Chu, Junfeng Zhao, Yasha Wang,
- Abstract要約: 本稿では,適応的な知識選択を実現することを目的とした,知識認識型参照最適化戦略であるKnowPOを提案する。
KnowPOは,従来の知識衝突処理手法を37%以上上回る性能を示した。
- 参考スコア(独自算出の注目度): 14.057527352653787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By integrating external knowledge, Retrieval-Augmented Generation (RAG) has become an effective strategy for mitigating the hallucination problems that large language models (LLMs) encounter when dealing with knowledge-intensive tasks. However, in the process of integrating external non-parametric supporting evidence with internal parametric knowledge, inevitable knowledge conflicts may arise, leading to confusion in the model's responses. To enhance the knowledge selection of LLMs in various contexts, some research has focused on refining their behavior patterns through instruction-tuning. Nonetheless, due to the absence of explicit negative signals and comparative objectives, models fine-tuned in this manner may still exhibit undesirable behaviors such as contextual ignorance and contextual overinclusion. To this end, we propose a Knowledge-aware Preference Optimization strategy, dubbed KnowPO, aimed at achieving adaptive knowledge selection based on contextual relevance in real retrieval scenarios. Concretely, we proposed a general paradigm for constructing knowledge conflict datasets, which comprehensively cover various error types and learn how to avoid these negative signals through preference optimization methods. Simultaneously, we proposed a rewriting strategy and data ratio optimization strategy to address preference imbalances. Experimental results show that KnowPO outperforms previous methods for handling knowledge conflicts by over 37\%, while also exhibiting robust generalization across various out-of-distribution datasets.
- Abstract(参考訳): 外部知識を統合することで,大規模言語モデル(LLM)が知識集約タスクに対処する際の幻覚的問題を緩和するための効果的な戦略となっている。
しかし、外部の非パラメトリック支持証拠を内部のパラメトリック知識と統合する過程で、避けられない知識の衝突が生じ、モデルの反応が混乱する可能性がある。
様々な文脈におけるLLMの知識選択を強化するために,授業チューニングによる行動パターンの洗練に重点を置いてきた研究もある。
それにもかかわらず、明示的な負の信号や相対的な目的が存在しないため、この方法で微調整されたモデルは、文脈的無知や文脈的過剰包摂のような望ましくない振る舞いを示す可能性がある。
そこで本研究では,実際の検索シナリオにおける文脈関連性に基づいて,適応的な知識選択を実現することを目的とした,知識認識型推論最適化戦略であるKnowPOを提案する。
具体的には、様々なエラータイプを包括的にカバーし、優先最適化手法によってこれらの負信号の回避方法を学習する知識衝突データセットを構築するための一般的なパラダイムを提案する。
同時に、好みの不均衡に対処するための書き直し戦略とデータ比最適化戦略を提案した。
実験結果から,KnowPOは従来の知識衝突処理手法よりも375%以上優れており,また,様々なアウト・オブ・ディストリビューションデータセットに対する堅牢な一般化も示している。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning [14.403812623299027]
Retrieval-Augmented Generation (RAG) は、幻覚生成と知識の陳腐化において、Large Language Models (LLM) が直面する問題に対する効果的な解決策を提供する。
本稿では, 親和性と頑健性に関連するパラメータ部分空間を分離し, 識別し, 目的的に最適化する新しいフレームワークであるParentingを提案する。
論文 参考訳(メタデータ) (2024-10-14T10:26:57Z) - GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。
本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Pattern based learning and optimisation through pricing for bin packing problem [50.83768979636913]
確率変数の分布のような問題条件が変化すると、以前の状況でうまく機能するパターンはより効果的になるかもしれないと論じる。
本研究では,パターンを効率的に同定し,各条件に対する値の動的定量化を行う新しい手法を提案する。
本手法は,制約を満たす能力と目的値に対する影響に基づいて,パターンの値の定量化を行う。
論文 参考訳(メタデータ) (2024-08-27T17:03:48Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。
適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Generative Intrinsic Optimization: Intrinsic Control with Model Learning [5.439020425819001]
将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
論文 参考訳(メタデータ) (2023-10-12T07:50:37Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。