Fugu-MT 論文翻訳(概要): KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models

論文の概要: KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models

arxiv url: http://arxiv.org/abs/2408.03297v2
Date: Mon, 19 Aug 2024 10:38:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 23:45:42.837860
Title: KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
Title（参考訳）: KnowPO:Retrieval-Augmented Language Modelにおける制御可能な知識選択のための知識認識参照最適化
Authors: Ruizhe Zhang, Yongxin Xu, Yuzhen Xiao, Runchuan Zhu, Xinke Jiang, Xu Chu, Junfeng Zhao, Yasha Wang,
Abstract要約: 本稿では,適応的な知識選択を実現することを目的とした,知識認識型参照最適化戦略であるKnowPOを提案する。 KnowPOは,従来の知識衝突処理手法を37%以上上回る性能を示した。
参考スコア（独自算出の注目度）: 14.057527352653787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: By integrating external knowledge, Retrieval-Augmented Generation (RAG) has become an effective strategy for mitigating the hallucination problems that large language models (LLMs) encounter when dealing with knowledge-intensive tasks. However, in the process of integrating external non-parametric supporting evidence with internal parametric knowledge, inevitable knowledge conflicts may arise, leading to confusion in the model's responses. To enhance the knowledge selection of LLMs in various contexts, some research has focused on refining their behavior patterns through instruction-tuning. Nonetheless, due to the absence of explicit negative signals and comparative objectives, models fine-tuned in this manner may still exhibit undesirable behaviors such as contextual ignorance and contextual overinclusion. To this end, we propose a Knowledge-aware Preference Optimization strategy, dubbed KnowPO, aimed at achieving adaptive knowledge selection based on contextual relevance in real retrieval scenarios. Concretely, we proposed a general paradigm for constructing knowledge conflict datasets, which comprehensively cover various error types and learn how to avoid these negative signals through preference optimization methods. Simultaneously, we proposed a rewriting strategy and data ratio optimization strategy to address preference imbalances. Experimental results show that KnowPO outperforms previous methods for handling knowledge conflicts by over 37\%, while also exhibiting robust generalization across various out-of-distribution datasets.
Abstract（参考訳）: 外部知識を統合することで,大規模言語モデル(LLM)が知識集約タスクに対処する際の幻覚的問題を緩和するための効果的な戦略となっている。しかし、外部の非パラメトリック支持証拠を内部のパラメトリック知識と統合する過程で、避けられない知識の衝突が生じ、モデルの反応が混乱する可能性がある。様々な文脈におけるLLMの知識選択を強化するために,授業チューニングによる行動パターンの洗練に重点を置いてきた研究もある。それにもかかわらず、明示的な負の信号や相対的な目的が存在しないため、この方法で微調整されたモデルは、文脈的無知や文脈的過剰包摂のような望ましくない振る舞いを示す可能性がある。そこで本研究では,実際の検索シナリオにおける文脈関連性に基づいて,適応的な知識選択を実現することを目的とした,知識認識型推論最適化戦略であるKnowPOを提案する。具体的には、様々なエラータイプを包括的にカバーし、優先最適化手法によってこれらの負信号の回避方法を学習する知識衝突データセットを構築するための一般的なパラダイムを提案する。同時に、好みの不均衡に対処するための書き直し戦略とデータ比最適化戦略を提案した。実験結果から,KnowPOは従来の知識衝突処理手法よりも375%以上優れており,また,様々なアウト・オブ・ディストリビューションデータセットに対する堅牢な一般化も示している。

関連論文リスト

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文参考訳（メタデータ） (2026-03-05T18:42:51Z)
TruthfulRAG: Resolving Factual-level Conflicts in Retrieval-Augmented Generation with Knowledge Graphs [10.861331756147477]
本稿では,RAGシステムにおける事実レベルの知識紛争を解決するためにTrathfulRAGを提案する。 TruthfulRAGは、検索されたコンテンツからトリプルを体系的に抽出することで、知識グラフ(KG)を構築する。大規模な実験により、TrathfulRAGは既存の手法より優れていることが判明した。
論文参考訳（メタデータ） (2025-11-13T14:49:44Z)
Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文参考訳（メタデータ） (2025-10-19T16:46:11Z)
Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts [63.412646471177645]
会話レコメンダシステム(CRS)のための新しい強化戦略最適化(RSO)手法を提案する。 RSOは、戦略駆動型応答決定をマクロレベルの戦略計画とマイクロレベルの戦略適応に分解する。実験の結果, RSOは最先端のベースラインと比較して, インタラクション性能を著しく向上することがわかった。
論文参考訳（メタデータ） (2025-09-30T11:12:01Z)
Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文参考訳（メタデータ） (2025-07-20T10:38:56Z)
Learning to Explore: An In-Context Learning Approach for Pure Exploration [23.16863295063427]
本研究は, 純粋探索(Pure Exploring)としても知られる, 能動的逐次仮説試験問題について検討する。 In-Context Pure Exploration (ICPE, In-Context Pure Exploration) は, Transformer を用いて経験から直接探索戦略を学習する,コンテキスト内学習手法である。 ICPEは教師付き学習と強化学習を組み合わせて、事前の仮定を必要とせず、関連するタスクをまたいだ潜在構造を特定し、活用する。
論文参考訳（メタデータ） (2025-06-02T17:04:50Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Accommodate Knowledge Conflicts in Retrieval-augmented LLMs: Towards Reliable Response Generation in the Wild [11.058848731627233]
大規模言語モデル (LLM) には高度な情報検索システムがある。 LLMは、しばしば内部記憶と検索された外部情報の間の知識の衝突に直面している。スウィンVIBは,変分情報ボトルネックモデルのパイプラインを,検索した情報の適応的拡張に統合する新しいフレームワークである。
論文参考訳（メタデータ） (2025-04-17T14:40:31Z)
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文参考訳（メタデータ） (2025-04-07T06:55:15Z)
Adaptive Elicitation of Latent Information Using Natural Language [6.162198958758635]
本稿では,潜在エンティティの不確かさを積極的に軽減する適応型エレクテーションフレームワークを提案する。我々のフレームワークは,メタ学習言語モデルを用いて将来の観測をシミュレートし,不確実性を予測する。 20の質問ゲーム、動的世論ポーリング、適応的学生評価の実験において、本手法は批判的未知を識別する基準線を一貫して上回っている。
論文参考訳（メタデータ） (2025-04-05T15:18:55Z)
Enhancing LLM Knowledge Learning through Generalization [73.16975077770765]
我々は,LLMが様々な言い換えの文脈に与えられた同じ事実的知識トークンを継続的に予測する能力は,質問応答によってその知識を抽出する能力と正の相関性を示す。そこで本稿では,LLMの知識獲得能力を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2025-03-05T17:56:20Z)
Learning to Defer for Causal Discovery with Imperfect Experts [59.071731337922664]
L2D-CDは、専門家の推薦の正しさを測り、データ駆動因果発見結果と最適に組み合わせる手法である。我々は,標準T"ubingenペアデータセット上でL2D-CDを評価し,因果探索法と分離に用いる専門家の双方と比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-02-18T18:55:53Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning [14.403812623299027]
Retrieval-Augmented Generation (RAG) は、幻覚生成と知識の陳腐化において、Large Language Models (LLM) が直面する問題に対する効果的な解決策を提供する。本稿では, 親和性と頑健性に関連するパラメータ部分空間を分離し, 識別し, 目的的に最適化する新しいフレームワークであるParentingを提案する。
論文参考訳（メタデータ） (2024-10-14T10:26:57Z)
GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study [46.55831783809377]
大規模言語モデル(LLM)の幻覚を緩和するための効果的なアプローチとして,検索拡張世代(RAG)がますます認識されている。 PruningRAGはマルチグラニュラリティ・プルーニング・ストラテジーを用いて,関連コンテキストをより効果的に統合し,誤った情報に対するネガティブな影響を軽減するためのプラグアンドプレイRAGフレームワークである。
論文参考訳（メタデータ） (2024-09-03T03:31:37Z)
Pattern based learning and optimisation through pricing for bin packing problem [50.83768979636913]
確率変数の分布のような問題条件が変化すると、以前の状況でうまく機能するパターンはより効果的になるかもしれないと論じる。本研究では,パターンを効率的に同定し,各条件に対する値の動的定量化を行う新しい手法を提案する。本手法は,制約を満たす能力と目的値に対する影響に基づいて,パターンの値の定量化を行う。
論文参考訳（メタデータ） (2024-08-27T17:03:48Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文参考訳（メタデータ） (2024-06-16T16:25:22Z)
READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文参考訳（メタデータ） (2024-04-02T16:42:44Z)
Generative Intrinsic Optimization: Intrinsic Control with Model Learning [5.439020425819001]
将来のシーケンスは、環境へのアクションの実行後の結果を表す。明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
論文参考訳（メタデータ） (2023-10-12T07:50:37Z)
Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。 CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文参考訳（メタデータ） (2021-11-26T10:57:47Z)
Learning Bias-Invariant Representation by Cross-Sample Mutual Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文参考訳（メタデータ） (2021-08-11T21:17:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。