論文の概要: Byte-Exact Deduplication in Retrieval-Augmented Generation: A Three-Regime Empirical Analysis Across Public Benchmarks
- arxiv url: http://arxiv.org/abs/2605.09611v1
- Date: Sun, 10 May 2026 15:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.331843
- Title: Byte-Exact Deduplication in Retrieval-Augmented Generation: A Three-Regime Empirical Analysis Across Public Benchmarks
- Title(参考訳): 検索拡張ジェネレーションにおけるByte-exact Deduplication:公開ベンチマークにおける3段階の実証分析
- Authors: Sietse Schelpe,
- Abstract要約: Preprintは、Retrieval-Augmented Generation (RAG)パイプラインにおけるバイト実行チャンクレベルの重複を実証分析した。
我々は、クリーンな学術検索、構築されたエンタープライズベンダパターン、マルチターン対話型AIの3つの異なるオペレーティング・システマティクスにおけるコンテキスト削減を測定する。
4つのベンダーはいずれも、クリーンかつ高冗長なRAG体制において、厳格な5%のWilson 95%の上向きMATしきい値をクリアしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This preprint presents an empirical analysis of byte-exact chunk-level deduplication in Retrieval-Augmented Generation (RAG) pipelines. We measure context reduction across three distinct operating regimes: clean academic retrieval (0.16% byte reduction on 22.2M BeIR passages), constructed enterprise patterns (24.03% reduction), and multi-turn conversational AI (80.34% reduction). To validate quality preservation, we conducted a cross-vendor 5-judge calibrated panel evaluation across four production APIs (Google Gemini 2.5 Flash, Anthropic Claude Sonnet 4.6, Meta Llama 3.3 70B, and OpenAI GPT-5.1). Applying a five-category human-in-the-loop noise-removal protocol to panel-majority materially different (MAT) pairs, we establish that byte-exact deduplication introduces zero measurable quality regression. Post-audit, all four vendors clear the strict <5% Wilson 95% upper-bound MAT threshold in both the clean and high-redundancy RAG regimes. This work demonstrates that substantial inference compute savings can be achieved deterministically without compromising evaluation-grade model quality.
- Abstract(参考訳): このプレプリントは、Retrieval-Augmented Generation (RAG) パイプラインにおけるバイト実行チャンクレベルの重複を実証的に解析する。
クリーンな学術検索(22.2M BeIRパスの0.16%の削減)、企業パターンの構築(24.03%の削減)、マルチターン会話型AI(80.34%の削減)の3つの異なるオペレーティング・システマティック・システマティック・システマティック・システマティック・システマティック・システマティック・システマティック・システマティック・システマティック・システマティック・システマティック・システマティック・システマティック・システマティックス)を計測した。
Google Gemini 2.5 Flash, Anthropic Claude Sonnet 4.6, Meta Llama 3.3 70B, OpenAI GPT-5.1)。
5カテゴリのHuman-in-the-loopノイズ除去プロトコルをパネル-Majority materially different (MAT) ペアに適用することにより,バイト-exact重複が品質劣化をゼロにすることを確認した。
監査後、すべての4つのベンダーは、クリーンかつ高冗長なRAG体制において、厳格な<5% Wilson 95%上向きのMATしきい値をクリアした。
この研究は、評価グレードモデルの品質を損なうことなく、かなりの推論計算の貯蓄を決定的に達成できることを示します。
関連論文リスト
- Human-Inspired Memory Architecture for LLM Agents [0.9507070656654629]
6つの認知機構からなる生体記憶アーキテクチャを提案する。
各メカニズムは、単純メモリ蓄積の特定の障害モードに対処する。
S層スケール(50セッション)では、デダップベースのコンソリデーションにより、好みのリコールが+13.3pp向上する。
論文 参考訳(メタデータ) (2026-05-08T22:52:37Z) - GSAR: Typed Grounding for Hallucination Detection and Recovery in Multi-Agent LLMs [0.0]
クレームを4方向のタイポロジー(接地,非接地,矛盾,相補的)に分割する基盤性フレームワークを提案する。
GSARは、明示的な計算予算の下で、結合された回復を伴うエビデンス型スコアリングを結合した最初の基盤フレームワークである。
論文 参考訳(メタデータ) (2026-04-25T16:20:28Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - RecGPT-V2 Technical Report [41.57739441038769]
大規模言語モデル(LLM)は、暗黙の行動パターンマッチングから明示的な意図推論へ、レコメンデータシステムを変換する大きな可能性を示している。
提案するRecGPT-V2には,暗黙的な行動パターンマッチングから明示的な意図推論へ,レコメンデータシステムを変換する4つの重要なイノベーションがある。
タオバオのオンラインA/Bテストでは、+2.98% CTR、+3.71% IPV、+2.19% TV、+11.46% NERが大幅に改善された。
論文 参考訳(メタデータ) (2025-12-16T15:40:44Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [80.15393178083607]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。