論文の概要: KaPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2408.03297v1
- Date: Tue, 6 Aug 2024 16:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 13:28:25.021423
- Title: KaPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
- Title(参考訳): KaPO:検索言語モデルにおける制御可能な知識選択のための知識認識による選好最適化
- Authors: Ruizhe Zhang, Yongxin Xu, Yuzhen Xiao, Runchuan Zhu, Xinke Jiang, Xu Chu, Junfeng Zhao, Yasha Wang,
- Abstract要約: 本稿では,実際の検索シナリオにおける制御可能な知識選択を実現することを目的とした,知識認識型推論最適化(KaPO)を提案する。
その結果,KaPOは従来の知識衝突処理手法を37%以上上回り,また,分布外一般化データセットの頑健性も示している。
- 参考スコア(独自算出の注目度): 14.057527352653787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By integrating external knowledge, Retrieval-Augmented Generation (RAG) has become an effective strategy for mitigating the hallucination problems that large language models (LLMs) encounter when dealing with knowledge-intensive tasks. However, in the process of integrating external non-parametric supporting evidence with internal parametric knowledge, inevitable knowledge conflicts may arise, leading to confusion in the model's responses. To enhance the knowledge selection of LLMs in various contexts, some research has focused on refining their behavior patterns through instruction-tuning. Nonetheless, due to the absence of explicit negative signals and comparative objectives, models fine-tuned in this manner may still exhibit undesirable behaviors in the intricate and realistic retrieval scenarios. To this end, we propose a Knowledge-aware Preference Optimization, dubbed KaPO, aimed at achieving controllable knowledge selection in real retrieval scenarios. Concretely, we explore and simulate error types across diverse context combinations and learn how to avoid these negative signals through preference optimization methods. Simultaneously, by adjusting the balance between response length and the proportion of preference data representing different behavior patterns, we enhance the adherence capabilities and noise robustness of LLMs in a balanced manner. Experimental results show that KaPO outperforms previous methods for handling knowledge conflicts by over 37%, while also exhibiting robust generalization across various out-of-distribution datasets.
- Abstract(参考訳): 外部知識を統合することで,大規模言語モデル(LLM)が知識集約タスクに対処する際の幻覚的問題を緩和するための効果的な戦略となっている。
しかし、外部の非パラメトリック支持証拠を内部のパラメトリック知識と統合する過程で、避けられない知識の衝突が生じ、モデルの反応が混乱する可能性がある。
様々な文脈におけるLLMの知識選択を強化するために,授業チューニングによる行動パターンの洗練に重点を置いてきた研究もある。
それでも、明示的な負の信号や相対的な目的が存在しないため、この方法で微調整されたモデルは、複雑で現実的な検索シナリオにおいて依然として望ましくない振る舞いを示す可能性がある。
そこで本研究では,実際の検索シナリオにおいて,制御可能な知識選択を実現することを目的とした,知識認識型推論最適化(KaPO)を提案する。
具体的には、様々なコンテキストの組み合わせでエラータイプを探索し、シミュレーションし、優先順位最適化手法によってこれらの負の信号を避ける方法を学ぶ。
同時に、応答長と異なる行動パターンを表す嗜好データの比率のバランスを調整することで、LLMの密着性とノイズ堅牢性をバランスよく向上する。
実験結果から,KaPOは従来の知識紛争処理手法を37%以上上回り,また,様々なアウト・オブ・ディストリビューションデータセットに対して堅牢な一般化を示した。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning [14.403812623299027]
Retrieval-Augmented Generation (RAG) は、幻覚生成と知識の陳腐化において、Large Language Models (LLM) が直面する問題に対する効果的な解決策を提供する。
本稿では, 親和性と頑健性に関連するパラメータ部分空間を分離し, 識別し, 目的的に最適化する新しいフレームワークであるParentingを提案する。
論文 参考訳(メタデータ) (2024-10-14T10:26:57Z) - GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。
本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Pattern based learning and optimisation through pricing for bin packing problem [50.83768979636913]
確率変数の分布のような問題条件が変化すると、以前の状況でうまく機能するパターンはより効果的になるかもしれないと論じる。
本研究では,パターンを効率的に同定し,各条件に対する値の動的定量化を行う新しい手法を提案する。
本手法は,制約を満たす能力と目的値に対する影響に基づいて,パターンの値の定量化を行う。
論文 参考訳(メタデータ) (2024-08-27T17:03:48Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。
適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Generative Intrinsic Optimization: Intrinsic Control with Model Learning [5.439020425819001]
将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
論文 参考訳(メタデータ) (2023-10-12T07:50:37Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。