Fugu-MT 論文翻訳(概要): WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems

論文の概要: WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems

arxiv url: http://arxiv.org/abs/2605.07068v1
Date: Fri, 08 May 2026 00:25:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.697011
Title: WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems
Title（参考訳）: WiCER: LLM Wikiシステムのためのウィキメモリのコンパイル、評価、反復的知識コンパイルの再定義
Authors: Juan M. Huerta,
Abstract要約: 我々は17のRepLiQAドメイン間のコンパイルギャップを特徴付ける(6,800の質問)。本稿では,このギャップを埋める反例誘導抽象化改良(CEGAR)にインスパイアされた反復アルゴリズムであるWiCERを提案する。全17項目のアブレーションにより、汎用ピンニング(+0.16)ではなく、ターゲット診断(+0.95)がゲインを駆動していることが確認された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The LLM Wiki pattern, to compile and provide domain knowledge into a persistent artifact and serve it to LLMs via KV cache inference, promises context access at sub-second latency with zero retrieval failure. Realizing this requires solving the compilation gap: LLM compilation distilling raw documents into a wiki without catastrophically discarding critical facts. We characterize this gap across 17 RepLiQA domains (6,800 questions): we observe that full context KV cache inference outperforms RAG on curated knowledge (4.38 vs. 4.08 out of 5, 7.3 faster TTFT) but degrades below RAG at scale due to attention dilution, and blind compilation fails entirely (2.14 to 2.32 vs. 3.46, 53 to 60% catastrophic failure rate). To address the compilation gap, we propose WiCER (Wiki-memory Compile, Evaluate, Refine), an iterative algorithm inspired by counterexample-guided abstraction refinement (CEGAR) that closes this gap. WiCER evaluates compiled wikis against diagnostic probes, identifies dropped facts, and forces their preservation in subsequent compilations. One to two iterations recover 80% of lost quality (mean 3.24 vs. 3.47 for raw full-context across the 15 topics with baselines), reducing catastrophic failures by 55% relative. An ablation across all 17 topics confirms that targeted diagnosis (+0.95), not generic pinning (+0.16), drives the gains. All code and benchmarks are released for reproducible research.
Abstract（参考訳）: LLM Wikiパターンは、ドメイン知識を永続的なアーティファクトにコンパイルして提供し、それをKVキャッシュ推論を介してLLMに提供するために、検索障害をゼロにすることで、秒以下のレイテンシでコンテキストアクセスを約束する。 LLMコンパイルは、重要な事実を破滅的に破棄することなく、生文書をwikiに蒸留する。我々は17のRepLiQAドメイン(6,800の質問)にまたがるこのギャップを特徴付け、フルコンテキストのKVキャッシュ推論がRAGよりも優れている(5,7.3のTTFTのうち4.38対4.08)が、注意の希釈によりRAG以下に低下し、ブラインドコンパイルは完全に失敗する(2.14から2.32対3.46、53〜60%の破滅的な失敗率)。コンパイルギャップに対処するため、このギャップを埋める反例誘導抽象化改良(CEGAR)にインスパイアされた反復アルゴリズムであるWiCER(Wiki-Memory Compile, Evaluate, Refine)を提案する。 WiCERは、診断プローブに対してコンパイルされたwikiを評価し、削除された事実を特定し、その後のコンパイルでそれらの保存を強制する。 1～2回のイテレーションで、損失品質の80%を回復する(平均3.24対3.47対15のトピックにわたる生のフルコンテキストがベースラインである)。全17項目のアブレーションにより、汎用ピンニング(+0.16)ではなく、ターゲット診断(+0.95)がゲインを駆動していることが確認された。すべてのコードとベンチマークは再現可能な研究のためにリリースされている。

関連論文リスト

How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。 HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文参考訳（メタデータ） (2026-05-08T09:30:31Z)
Constraint-Guided Multi-Agent Decompilation for Executable Binary Recovery [47.704311990064554]
脱コンパイルは、セキュリティ分析、マルウェアのリバースエンジニアリング、レガシーソフトウェアメンテナンスに不可欠である。マルチレベル制約誘導型デコンパイル(MCGD)により,デコンパイルされたコードを再実行可能なソースに変換するマルチエージェントフレームワークを提案する。本フレームワークは,84～97%の再実行性を実現し,28～89ポイントのベースラインデコンパイラ出力を改善した。
論文参考訳（メタデータ） (2026-04-27T01:28:11Z)
Self-Aware Vector Embeddings for Retrieval-Augmented Generation: A Neuroscience-Inspired Framework for Temporal, Confidence-Weighted, and Relational Knowledge [0.0]
現代の検索拡張生成(RAG)システムは、ベクトル埋め込みを静的で文脈に依存しないアーティファクトとして扱う。このフレームワークは,3つの明示的な特性 – 時間的認識,信頼の低下,関係的認識 – で密着な埋め込みを強化するものだ。
論文参考訳（メタデータ） (2026-04-22T14:13:50Z)
Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval [0.0]
大型言語モデル (LLM) は前例のない流布を達成したが、「幻覚」の影響を受けないままである。本研究では,LLMをパターンマッチングから真偽探索へシフトさせることにより,事実不正確さを検知する階層型検索・検証アーキテクチャを提案する。システムは5つの多様なベンチマークから650のクエリで評価された。
論文参考訳（メタデータ） (2026-03-18T15:59:30Z)
Selective Memory for Artificial Intelligence: Write-Time Gating with Hierarchical Archiving [0.0]
パラメトリックアプローチは、選択的な更新を前に、知識を重みに圧縮する。合成サリエンススコアを用いて、入ってくる知識オブジェクトをフィルタリングする書き込み時間ゲーティングを導入する。
論文参考訳（メタデータ） (2026-03-16T23:06:44Z)
Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文参考訳（メタデータ） (2026-03-12T16:00:22Z)
Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models [11.16952630564181]
不整合, 特定の事実的不整合に着目し, コーパスレベルの不整合検出の課題を導入する。本稿では,LLM推論と検索を組み合わせたエージェントシステムであるCLAIREについて述べる。経験豊富なウィキペディア編集者によるユーザスタディでは、87.5%がCLAIREを使用する際の信頼性が高く、参加者は同じ時間内に64.7%の矛盾が見つかった。
論文参考訳（メタデータ） (2025-09-27T10:32:41Z)
Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory [52.44029486173232]
Dynamic Cheatsheet(DC)は、永続的で進化するメモリを備えたブラックボックス言語モデルを提供する軽量フレームワークである。 DCは、蓄積した戦略、コードスニペット、および推論時に一般的な問題解決の洞察をモデルが保存し再利用することを可能にする。このテストタイム学習は、明確な地味なラベルや人間のフィードバックを必要とせずに、幅広いタスクのパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2025-04-10T17:57:33Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文参考訳（メタデータ） (2024-06-19T20:13:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。