論文の概要: E3: Issue-Level Backtesting for Automated Research Critique
- arxiv url: http://arxiv.org/abs/2605.27072v1
- Date: Tue, 26 May 2026 14:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.217513
- Title: E3: Issue-Level Backtesting for Automated Research Critique
- Title(参考訳): E3: 自動研究批判に対する問題レベルバックテスト
- Authors: Yashwardhan Chaudhuri, Sanyam Jain, Paridhi Mundra,
- Abstract要約: E3は研究論文の技術的懸念を識別する自動レビューアシスタントである。
それぞれの懸念について、E3は、その性質、その位置、貢献に対する影響、そしてそれを解決する分析や証拠を報告している。
- 参考スコア(独自算出の注目度): 2.141079906482723
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present E3, an automated review assistant that augments reviewers and engineering teams by identifying decision-relevant technical concerns in research papers. For each concern, E3 reports its nature, its location, its bearing on the contribution, and the analysis or evidence that would resolve it, covering unsupported claims, missing ablations, weak baselines, hidden assumptions, threats to validity, and leakage risks. To evaluate E3 without contamination confounds we adopt an issue-level backtesting protocol: the corpus is restricted to papers postdating the training cutoff of every automated source, and for each paper a meta-judge that observes only anonymised reviews labels every issue-source pair as Caught, Partial, or Missed. Applied to 100 ICLR 2026 papers and 4598 judged issue rows, comparing E3 against the ICLR human reviews and two prompt-matched LLM baselines built on gpt-5.4 from OpenAI and claude-opus-4-6 from Anthropic, with meta-judge gpt-5.5, E3 attains the highest recall on every aggregate metric. Partial-inclusive recall reaches 90.2 percent, which is 15.5 points over GPT, 17.1 points over Claude, and 29.2 points over the human reviews, and strict recall preserves the ordering at 65.8 percent. On concerns raised by the human reviewers, E3 recovers 89.6 percent; on concerns the human reviewers missed it surfaces 1635 additional rows admitted into the judged union, 406 above the next-best source. Corpus, baseline prompts, judge prompt template, and evaluation code are released.
- Abstract(参考訳): E3は自動レビューアシスタントで、研究論文における意思決定に関連する技術的な懸念を識別することで、レビュアーやエンジニアリングチームを強化します。
それぞれの懸念について、E3は、その性質、その位置、貢献への責任、そしてそれを解決するための分析または証拠を報告している。
コーパスは、すべての自動ソースのトレーニングカットを延期する書類に制限され、各論文では、匿名化されたレビューのみを観察するメタジャッジは、すべてのイシューソースペアをCaught、Partial、Missedとラベル付けします。
100 ICLR 2026と4598の論文に適用され、E3とICLRのヒューマンレビューを比較し、OpenAIのgpt-5.4とArthropicのclaude-opus-4-6の2つのプロンプトマッチングLCMベースラインを比較した。
部分包括的リコールは90.2%に達し、これはGPTが15.5ポイント、クロードが17.1ポイント、人間レビューが29.2ポイント、厳格なリコールは65.8%である。
E3は89.6%のリカバリーを達成し、人間のレビュアーが1635行追加で審査された組合に承認された。
コーパス、ベースラインプロンプト、判定プロンプトテンプレート、評価コードなどがリリースされる。
関連論文リスト
- ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence [57.37494162084001]
チェーン・オブ・エビデンス(Chain-of-Evidence, CoE)は、すべてのクレームがエビデンス・ソースにトレース可能であることを要求する検証可能なフレームワークである。
CoE Auditはポストホック監査であり、スコア検証、仕様違反、参照検証、メソッドコードアライメントという4つの整合性チェックが全システムに均一に適用される。
論文 参考訳(メタデータ) (2026-05-25T21:30:27Z) - On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists [113.03797263688519]
多くの科学者は、AIレビュアーを研究を評価する専門知識のない確率的システムと見なしている。
既存のAIレビュアーの評価では、評決が人間の評決に合致するかどうかに焦点が当てられている。
論文 参考訳(メタデータ) (2026-05-20T03:33:55Z) - Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps [0.0]
Frontier Deep Research Agent(DRA)は、研究タスクを計画し、文書を合成し、必要に応じて構造化された成果を返却する。
既存のベンチマークは、ファクトリコール、シングルホップQA、ジェネリックエージェントスキルを計測する。
私たちは、Web検索を備えたClaude Opus 4.6、OpenAI o3-deep-research、Google Gemini 3.1 Proの3つのフロンティアエージェントを、42の中小企業のプロンプトで評価しています。
論文 参考訳(メタデータ) (2026-05-17T17:32:52Z) - Step-wise Rubric Rewards for LLM Reasoning [72.17879367869503]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論を改善するために広く使われている。
正しい回答の18.2%は間違っているが、肯定的な報酬がある。
6つの数学的推論ベンチマークで、SRaRはRaRの平均精度を3.57ポイント改善した。
論文 参考訳(メタデータ) (2026-05-17T07:08:14Z) - How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation [0.0]
テストモデルとEpoch AI能力指数の同時フロンティアを比較した。
これらの回答のギャップは、+5.53 ECI/年で拡大している。
提案されている改善には、APIアクセス助成金と報告フレームワークの編集執行が含まれる。
論文 参考訳(メタデータ) (2026-05-05T17:58:35Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Rethinking Atomic Decomposition for LLM Judges: A Prompt-Controlled Study of Reference-Grounded QA Evaluation [5.94231111588812]
我々は、自己分解型原子式判定器(単一プロンプト分解検証器)を、同じ入力と同様の詳細なルーリックを持つ、即時制御された全体的判定器と比較する。
我々の発見は、QAスタイルの3つのベンチマークで、それぞれ200のソース例で自己分解するシングルプロンプトパターンに特化しています。
論文 参考訳(メタデータ) (2026-03-30T03:55:26Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges [53.12387628636912]
RAG評価において重要な要素は、引用された文書の情報が回答をサポートするかどうかである。
TREC 2024 RAG Trackの36項目について,45件の参加者を大規模に比較検討した。
以上の結果から,手動によるオフスクラッチ評価の56%では,ヒトとGPT-4oの予測が完全に一致していることが示唆された。
論文 参考訳(メタデータ) (2025-04-21T16:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。