Fugu-MT 論文翻訳(概要): The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research

論文の概要: The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research

arxiv url: http://arxiv.org/abs/2602.18458v1
Date: Thu, 05 Feb 2026 19:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 07:21:25.582034
Title: The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research
Title（参考訳）: The Story is not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research
Authors: Xiaoyan Bai, Alexander Baumgartner, Haojia Sun, Ari Holtzman, Chenhao Tan,
Abstract要約: 我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
参考スコア（独自算出の注目度）: 56.80927148740585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reproducibility crises across sciences highlight the limitations of the paper-centric review system in assessing the rigor and reproducibility of research. AI agents that autonomously design and generate large volumes of research outputs exacerbate these challenges. In this work, we address the growing challenges of scalability and rigor by flipping the dynamic and developing AI agents as research evaluators. We propose the first execution-grounded evaluation framework that verifies research beyond narrative review by examining code and data alongside the paper. We use mechanistic interpretability research as a testbed, build standardized research output, and develop MechEvalAgent, an automated evaluation framework that assesses the coherence of the experimental process, the reproducibility of results, and the generalizability of findings. We show that our framework achieves above 80% agreement with human judges, identifies substantial methodological problems, and surfaces 51 additional issues that human reviewers miss. Our work demonstrates the potential of AI agents to transform research evaluation and pave the way for rigorous scientific practices.
Abstract（参考訳）: 科学における再現可能性の危機は、研究の厳密さと再現性を評価する上で、論文中心のレビューシステムの限界を強調している。大量の研究成果を自律的に設計し、生成するAIエージェントは、これらの課題をさらに悪化させる。本研究では、動的に進化し、AIエージェントを研究評価ツールとして活用することで、スケーラビリティと厳密さの増大する課題に対処する。本稿では,本論文に付随するコードとデータを調べることで,物語レビューを超えて研究を検証する,最初の実行基盤評価フレームワークを提案する。本研究では,実験プロセスの一貫性,再現性,結果の一般化性を評価する自動評価フレームワークであるMechEvalAgentを開発した。本研究では,人間の判断と80%以上の合意を達成し,実質的な方法論的問題を同定し,人間レビュアーが見逃す51の問題を提起する。我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。

関連論文リスト

FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文参考訳（メタデータ） (2026-02-02T23:21:13Z)
Towards AI Agents Supported Research Problem Formulation [3.6732711233211663]
不規則に定式化された研究問題は、ソフトウェア工学研究の実践的妥当性を損なう可能性がある。本研究の初期段階において,SE研究者を支援する人工知能エージェントの活用について検討する。
論文参考訳（メタデータ） (2025-12-14T14:44:27Z)
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。 22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文参考訳（メタデータ） (2025-10-24T17:10:26Z)
ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review [23.630458187587223]
ReviewerTooは、AI支援ピアレビューの研究とデプロイのためのフレームワークである。専門的なレビュアー・ペルソナと構造化された評価基準による体系的な実験を支援する。私たちは、複雑な評価判断をドメインの専門家に任せながら、AIが一貫性、カバレッジ、公平性を高める方法を示します。
論文参考訳（メタデータ） (2025-10-09T23:53:19Z)
The More You Automate, the Less You See: Hidden Pitfalls of AI Scientist Systems [11.543423308064275]
AI科学者システムは、仮説生成から論文執筆までの完全な研究ワークフローを実行することができる。この精査の欠如は、研究成果の完全性、信頼性、信頼性を損なう可能性のある欠陥を導入するリスクを生じさせる。現代のAI科学者システムでは、不適切なベンチマーク選択、データ漏洩、メトリック誤用、ポストホック選択バイアスの4つの潜在的な障害モードを特定している。
論文参考訳（メタデータ） (2025-09-10T16:04:24Z)
Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-29T08:48:00Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。 ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文参考訳（メタデータ） (2024-04-11T13:36:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。