論文の概要: ASMR-Bench: Auditing for Sabotage in ML Research
- arxiv url: http://arxiv.org/abs/2604.16286v1
- Date: Fri, 17 Apr 2026 17:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.039143
- Title: ASMR-Bench: Auditing for Sabotage in ML Research
- Title(参考訳): ASMR-Bench: MLリサーチにおけるサボタージュの監査
- Authors: Eric Gan, Aryan Bhatt, Buck Shlegeris, Julian Stastny, Vivek Hebbar,
- Abstract要約: AsMR-Bench (Auditing for Sabotage in ML Research) は,ML研究におけるサボタージュの検出能力を評価するためのベンチマークである。
ASMR-Benchは9つのML研究から成っている。
ASMR-Benchの最高性能はAUROC 0.77で42%で、Gemini 3.1 Proが達成した。
- 参考スコア(独自算出の注目度): 4.920842258185391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems are increasingly used to conduct research autonomously, misaligned systems could introduce subtle flaws that produce misleading results while evading detection. We introduce ASMR-Bench (Auditing for Sabotage in ML Research), a benchmark for evaluating the ability of auditors to detect sabotage in ML research codebases. ASMR-Bench consists of 9 ML research codebases with sabotaged variants that produce qualitatively different experimental results. Each sabotage modifies implementation details, such as hyperparameters, training data, or evaluation code, while preserving the high-level methodology described in the paper. We evaluated frontier LLMs and LLM-assisted human auditors on ASMR-Bench and found that both struggled to reliably detect sabotage: the best performance was an AUROC of 0.77 and a top-1 fix rate of 42%, achieved by Gemini 3.1 Pro. We also tested LLMs as red teamers and found that LLM-generated sabotages were weaker than human-generated ones but still sometimes evaded same-capability LLM auditors. We release ASMR-Bench to support research on monitoring and auditing techniques for AI-conducted research.
- Abstract(参考訳): AIシステムが自律的に研究を行うのにますます使われているため、ミスアライメントシステムは、検出を回避しながら誤った結果をもたらす微妙な欠陥を導入する可能性がある。
AsMR-Bench(Auditing for Sabotage in ML Research)は,ML研究コードベースにおけるサボタージュの検出能力を評価するベンチマークである。
ASMR-Benchは9つのML研究コードベースと、定性的に異なる実験結果を生成するサボタージュされた変種から構成される。
それぞれのサボタージュは、ハイパーパラメータ、トレーニングデータ、評価コードなどの実装の詳細を変更しながら、論文に記載されているハイレベルな方法論を保存する。
我々は,ASMR-Bench 上でのフロンティア LLM と LLM 支援ヒト監査器の評価を行い,両者が確実にサボタージュを検出するのに苦慮していることを確認した。
また,LDMをレッドチームとしてテストしたところ,LDM生成サボタージュは人為的なサボタージュよりも弱いが,時として同じ能力を持つLDM監査機を回避できることがわかった。
我々はASMR-Benchをリリースし、AIによる研究のモニタリングと監査技術の研究を支援する。
関連論文リスト
- MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination [25.50050557327127]
幻覚は、大きな言語モデル(LLM)にとって重要なボトルネックである。
MARCH(Multi-Agent Reinforced Self-Check for Hallucination)を紹介する。
MARCHは意図的な情報非対称性を活用することで厳密な事実整合を強制する。
論文 参考訳(メタデータ) (2026-03-25T17:54:10Z) - Meta-Fair: AI-Assisted Fairness Testing of Large Language Models [2.9632404823837777]
公正さは人工知能(AI)システムの開発における中核的な原則である。
大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。
本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
論文 参考訳(メタデータ) (2025-07-03T11:20:59Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [66.87201770167012]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - How Good Are LLMs at Out-of-Distribution Detection? [13.35571704613836]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
論文 参考訳(メタデータ) (2023-08-20T13:15:18Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。