論文の概要: Cross-Context Verification: Hierarchical Detection of Benchmark Contamination through Session-Isolated Analysis
- arxiv url: http://arxiv.org/abs/2603.21454v2
- Date: Wed, 01 Apr 2026 14:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.554473
- Title: Cross-Context Verification: Hierarchical Detection of Benchmark Contamination through Session-Isolated Analysis
- Title(参考訳): クロスコンテキスト検証:セッション分離分析によるベンチマーク汚染の階層的検出
- Authors: Tae-Eun Song,
- Abstract要約: Cross-Context Verification (CCV) は、N個の独立したセッションで同じベンチマーク問題を解決するブラックボックス方式である。
9つのSWE分岐検証問題(45の試験、クロードオプス4.6、温度0)では、CCVは汚染されたものと真の推論との間の完全な分離を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM coding benchmarks face a credibility crisis: widespread solution leakage and test quality issues undermine SWE-bench Verified, while existing detection methods--paraphrase consistency, n-gram overlap, perplexity analysis--never directly observe whether a model reasons or recalls. Meanwhile, simply repeating verification degrades accuracy: multi-turn review generates false positives faster than it discovers true errors, suggesting that structural approaches are needed. We introduce Cross-Context Verification (CCV), a black-box method that solves the same benchmark problem in N independent sessions and measures solution diversity, combined with the Hierarchical Cross-Context Architecture (HCCA), a multi-agent analysis framework that prevents confirmation bias through intentional information restriction across specialized analytical roles. On 9 SWE-bench Verified problems (45 trials, Claude Opus 4.6, temperature 0), CCV achieves perfect separation between contaminated and genuine reasoning (Mann-Whitney U=0, p approx 0.012, r = 1.0). Key findings: (1) contamination is binary--models either recall perfectly or not at all; (2) reasoning absence is a perfect discriminator; (3) 33% of prior contamination labels are false positives; (4) HCCA's independent analysis structure discovers contamination-flaw composite cases that single-analyst approaches miss. A pilot experiment extending HCCA to multi-stage verification (Worker to Verifier to Director) yields a negative result--100% sycophantic confirmation--providing further evidence that information restriction, not structural complexity, is the key mechanism. We release all code and data.
- Abstract(参考訳): 広範なソリューションリークとテスト品質の問題がSWE-bench検証を損なう一方で、既存の検出方法 – パラフレーズ一貫性、n-gramオーバーラップ、パープレキシティ分析 – モデルが原因かリコールかを直接監視する。
一方、検証を繰り返すだけで精度が低下する: マルチターンレビューは真のエラーを発見するよりも早く偽陽性を発生し、構造的アプローチが必要であることを示唆する。
CCV(Cross-Context Verification)は,Nセッションで同じベンチマーク問題を解くブラックボックス手法であり,特定の解析的役割にまたがる意図的情報制限による確認バイアスを防止するマルチエージェント分析フレームワークである階層的クロスコンテキストアーキテクチャ(HCCA)と組み合わせて,ソリューションの多様性を測定する。
9つのSWEベンチ検証問題(45の試験、Claude Opus 4.6、温度0)では、CCVは汚染されたものと真の推論(Mann-Whitney U=0、p approx 0.012、r = 1.0)を完全分離する。
主な発見:(1)汚染はバイナリモデル、(2)不在は完全判別器、(3)先行汚染ラベルの33%は偽陽性、(4)HCCAの独立した分析構造は、単一分析アプローチが見逃す汚染-欠陥複合事例を発見する。
HCCAを多段階認証(Worker to Verifier to Director)に拡張するパイロット実験は、情報制限が構造的な複雑さではなく、重要なメカニズムであることを示す、負の結果-100%のシコファン性確認をもたらす。
すべてのコードとデータをリリースします。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse [1.4608214000864057]
CausalT5Kは10ドメインにわたる5000以上のケースの診断ベンチマークである。
合成ベンチマークとは異なり、CausalT5Kはリアルな物語に因果トラップを埋め込んでいる。
予備的な実験では、静的監査ポリシーが普遍的に失敗する4段階のコントロールランドスケープが示される。
論文 参考訳(メタデータ) (2026-02-09T17:36:56Z) - Detecting Batch Heterogeneity via Likelihood Clustering [0.9668407688201359]
バッチエフェクトはゲノム診断の主要な共同創設者である。
ベイジアンモデル証拠に従ってサンプルをクラスタリングすることで,両方の制約に対処する手法を提案する。
本手法は,標準相関法や次元縮小法と比較して,クラスタリング精度が優れている。
論文 参考訳(メタデータ) (2026-01-14T01:49:21Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Verification Limits Code LLM Training [23.67882363039948]
コード生成のための大規模言語モデルは、問題解と検証テストの両方がモデルによって生成される合成データにますます依存している。
本研究では,検証設計と戦略がモデル性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-09-25T07:23:30Z) - Probabilistic Soundness Guarantees in LLM Reasoning Chains [37.440902632372904]
ARES(Autoregressive Reasoning Entailment Stability)は、事前に検証された前提のみに基づいて、各推論ステップを評価する確率的フレームワークである。
ARESは4つのベンチマークで最先端のパフォーマンスを達成し、非常に長い合成推論チェーン上で優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-17T09:40:56Z) - Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs [87.79350168490475]
本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。
4種類の検出方法は全て、自己整合性エラーを検出するのにかなり苦労している。
自己整合性誤差がLLM間でしばしば異なるという観測により、我々は単純で効果的なクロスモデルプローブを提案する。
論文 参考訳(メタデータ) (2025-05-23T09:18:56Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Mitigating the Mutual Error Amplification for Semi-Supervised Object
Detection [92.52505195585925]
擬似ラベルの修正機構を導入し,相互誤りの増幅を緩和するクロス・インストラクション(CT)手法を提案する。
他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,我々はラベル修正モジュール(LRM)を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。