論文の概要: DeepRefine: Agent-Compiled Knowledge Refinement via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.10488v1
- Date: Mon, 11 May 2026 12:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.818873
- Title: DeepRefine: Agent-Compiled Knowledge Refinement via Reinforcement Learning
- Title(参考訳): DeepRefine:強化学習によるエージェントコンパイル型知識リファインメント
- Authors: Haoyu Huang, Jiaxin Bai, Shujie Liu, Yang Wei, Hong Ting Tsang, Yisen Gao, Zhongwei Xie, Yufei Li, Yangqiu Song,
- Abstract要約: エージェントコンパイルされた知識ベースは、下流タスクにおいて、大きな言語モデル(LLM)エージェントに対して永続的な外部知識を提供する。
しかし、その品質は、不完全性、不完全性、浮揚性によって体系的に制限される
- 参考スコア(独自算出の注目度): 60.35032268606525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent-compiled knowledge bases provide persistent external knowledge for large language model (LLM) agents in open-ended, knowledge-intensive downstream tasks. Yet their quality is systematically limited by \emph{incompleteness}, \emph{incorrectness}, and \emph{redundancy}, manifested as missing evidence or cross-document links, low-confidence or imprecise claims, and ambiguous or coreference resolution issues. Such defects compound under iterative use, degrading retrieval fidelity and downstream task performance. We present \textbf{DeepRefine}, a general LLM-based reasoning model for \emph{agent-compiled knowledge refinement} that improves the quality of any pre-constructed knowledge bases with user queries to make it more suitable for the downstream tasks. DeepRefine performs multi-turn interactions with the knowledge base and conducts abductive diagnosis over interaction history, localizes likely defects, and executes targeted refinement actions for incremental knowledge base updates. To optimize refinement policies of DeepRefine without gold references, we introduce a Gain-Beyond-Draft (GBD) reward and train the reasoning process end-to-end via reinforcement learning. Extensive experiments demonstrate consistent downstream gains over strong baselines.
- Abstract(参考訳): エージェントコンパイルされた知識ベースは、オープンエンドの知識集約的な下流タスクにおいて、大きな言語モデル(LLM)エージェントに対して永続的な外部知識を提供する。
しかし、それらの品質は体系的には \emph{incompleteness} 、 \emph{incorrectness} 、 \emph{redundancy} によって制限され、欠落した証拠またはクロスドキュメントリンク、低信頼または不正確クレーム、曖昧またはコア参照解決の問題で表される。
このような欠陥は反復的使用、検索精度の低下、下流タスク性能の低下などによって複雑化する。
本稿では, ユーザクエリによる事前構築された知識ベースの品質向上を図り, 下流タスクに適合させる, 汎用LLMベースの推論モデルである‘textbf{DeepRefine}を提案する。
DeepRefineは、知識ベースとのマルチターンインタラクションを実行し、インタラクション履歴を誘導的に診断し、潜在的な欠陥をローカライズし、インクリメンタルな知識ベース更新のためにターゲットの洗練アクションを実行する。
ゴールドレファレンスを使わずにDeepRefineの洗練政策を最適化するため,ゲイン・ビヨンド・ドラフト(GBD)の報酬を導入し,強化学習を通じてエンドツーエンドの推論過程を訓練する。
大規模な実験は、強いベースラインに対して一貫した下流のゲインを示す。
関連論文リスト
- Hindsight Distillation Reasoning with Knowledge Encouragement Preference for Knowledge-based Visual Question Answering [55.368681418311894]
既存の知識に基づくビジュアル質問回答 (KBVQA) 手法は、マルチモーダルな大規模言語モデル (MLLM) における暗黙的な知識をコンテキスト内学習または検索拡張生成による明示的な知識を介して利用する。
KEPO(Knowledge Encouragement Preference Optimization)を用いたHindsight Distilled Reasoning(HinD)フレームワークを提供する。
OK-VQAとA-OKVQAの実験によりHinDの有効性が検証され、7BサイズのMLLMから推論したHinDが商用モデルAPIや外部知識を使わずに優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-14T10:03:23Z) - TruthfulRAG: Resolving Factual-level Conflicts in Retrieval-Augmented Generation with Knowledge Graphs [10.861331756147477]
本稿では,RAGシステムにおける事実レベルの知識紛争を解決するためにTrathfulRAGを提案する。
TruthfulRAGは、検索されたコンテンツからトリプルを体系的に抽出することで、知識グラフ(KG)を構築する。
大規模な実験により、TrathfulRAGは既存の手法より優れていることが判明した。
論文 参考訳(メタデータ) (2025-11-13T14:49:44Z) - Improving Context Fidelity via Native Retrieval-Augmented Reasoning [35.50952279309109]
大規模言語モデル(LLM)は、しばしば文脈の忠実さと闘い、提供された情報に基づいて質問に答えるときに矛盾する答えを生み出す。
提案するCAREは, LLMに対して, モデル独自の検索機能を用いて, 推論プロセス内での文脈内証拠を明示的に統合するように教える, 新たなネイティブ検索拡張推論フレームワークである。
提案手法では,限定ラベル付きエビデンスデータが必要であり,推論チェーン内の戦略的に検索されたインコンテキストトークンを通じて,検索精度と回答生成性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-17T04:28:07Z) - PropMEND: Hypernetworks for Knowledge Propagation in LLMs [82.99849359892112]
本稿では,PropMENDという,ハイパーネットワークに基づく知識伝播手法を提案する。
インジェクションされた事実に回答が明記されていないマルチホップ質問に対して,ほぼ2倍の精度で回答を提示する。
我々はまた、ハイパーネットワークの一般化を評価するために、新しいデータセットである Controlled RippleEdit も導入した。
論文 参考訳(メタデータ) (2025-06-10T15:44:19Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG [24.660769275714685]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン知識を組み込む重要な手法として登場した。
本稿では,学習データを2つの方法で強化することで,微調整プロセスを大幅に強化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:39:51Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。