論文の概要: Benchmarking Mythos-Linked Bug Rediscovery
- arxiv url: http://arxiv.org/abs/2605.17416v1
- Date: Sun, 17 May 2026 12:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.008538
- Title: Benchmarking Mythos-Linked Bug Rediscovery
- Title(参考訳): マイソスリンクバグのリコリデーションのベンチマーク
- Authors: Isaac David, Arthur Gervais,
- Abstract要約: Anthropicの2026年4月のMythosの資料は、ベンチマークのクレームと具体的なバグフィリングのストーリーを組み合わせている。
本稿では,6つの公的あるいは高信頼なマイソスリンクシステムタスクを対象としたターゲットファイル再検討実験を報告する。
- 参考スコア(独自算出の注目度): 3.93181912653522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anthropic's April 2026 Mythos materials combine benchmark claims with concrete bug-finding stories across OpenBSD, FreeBSD, Linux, FFmpeg, and browsers. This paper reports a controlled target-file rediscovery experiment on six public or high-confidence Mythos-linked systems tasks. Each model receives the same target file or files, read-only source tools, three repeats per task, and one manual target-matching rubric; prompts omit CVE identifiers, patch hashes, advisory text, author names, disclosure dates, and answer key root cause language. The experiment contains 54 counted model-task attempts: three models, six tasks, and three repeats, giving 18 attempts per model. GPT-5.5 xhigh achieves 5/18 target rediscoveries, covering 2/6 tasks; counting one wrong-target mpegts.c finding separately gives 3/6 distinct core bugs. Claude Opus 4.7 achieves 1/18 target rediscoveries, covering 1/6 tasks. Kimi K2 records 0/18 target rediscoveries. The dominant failure mode is early commitment to plausible alternate candidates within the assigned file: models often submit source-grounded hypotheses while missing the specific invariant corrected by public Mythos patch evidence. These results do not refute Anthropic's undisclosed workflow, but show that under this favorable target-file scaffold, systems-specific prompting yields only six target matches across 54 counted attempts.
- Abstract(参考訳): Anthropicが2026年4月に発表したMythosの資料は、ベンチマーククレームとOpenBSD、FreeBSD、Linux、FFmpeg、ブラウザにまたがる具体的なバグフィニングストーリーを組み合わせている。
本稿では,6つの公的あるいは高信頼なマイソスリンクシステムタスクを対象としたターゲットファイル再検討実験について報告する。
各モデルは、同じターゲットファイルまたはファイル、リードオンリーのソースツール、タスク毎に3つのリピート、手動のターゲットマッチングルーブリックを受信する。
実験には3つのモデル、6つのタスク、3つの繰り返しを含む54のモデルタスク試行が含まれており、1つのモデルに対して18の試行が与えられている。
GPT-5.5 xhighは5/18ターゲットのリスコバリーを達成し、2/6タスクをカバーする。
クロードオプス4.7は1/18の目標再開発を行い、1/6のタスクをカバーしている。
キミK2は0/18のターゲットリコヴェリーを記録している。
主流の障害モードは、割り当てられたファイル内の妥当な代替候補に対する早期のコミットメントである: モデルは、しばしば、公開Mythosのパッチのエビデンスによって修正された特定の不変性を欠いている間に、ソース基底の仮説を提出する。
これらの結果は、Anthropicの未公表のワークフローを否定するものではないが、この好ましいターゲットファイルの足場の下では、システム固有のプロンプトは54回の試行で6つのターゲットマッチしか得られないことを示している。
関連論文リスト
- PBT-Bench: Benchmarking AI Agents on Property-Based Testing [29.035258104995204]
PBT-Benchは、40の実際のPythonライブラリにまたがる100のプロパティベースのテスト問題のベンチマークである。
各問題は1つ以上のセマンティックなバグ(総数365、平均3.65)を注入し、デフォルトのストラテジーなランダムな入力がほとんど起こらないように設計する。
PBT指導によるバグリコールは42.1%から83.4%の範囲で、オープンエンドベースラインでは31.4%から76.7%である。
論文 参考訳(メタデータ) (2026-05-13T18:01:05Z) - CrackMeBench: Binary Reverse Engineering for Agents [3.93181912653522]
CrackMeBenchは、言語モデルエージェントを教育のリバースエンジニアリングタスクで評価するためのベンチマークである。
v0ベンチマークでは、8つのパブリックキャリブレーションCrackMesと、シードされたC、Rust、Goテンプレートから構築された12のメインスコアタスクを組み合わせる。
CrackMeBenchは pass@1 と pass@3 を記録し、リクエスト、ウォールクロック時間、コマンドトレース、ツールカテゴリ、プロバイダがレポートしたトークンの使用状況、推定コスト、定性的な障害ラベルを記録している。
論文 参考訳(メタデータ) (2026-05-11T14:01:36Z) - The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。
通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文 参考訳(メタデータ) (2026-04-27T16:23:09Z) - KWBench: Measuring Unprompted Problem Recognition in Knowledge Work [0.0]
KWBenchは、大規模言語モデルにおける未証明問題認識のベンチマークである。
解決しようとする前に、プロのシナリオを特定することができます。
これには、買収、契約交渉、臨床薬局、組織政治、詐欺分析、インセンティブデザインを含む223の業務が含まれている。
論文 参考訳(メタデータ) (2026-04-17T07:04:54Z) - Mapping the Exploitation Surface: A 10,000-Trial Taxonomy of What Makes LLM Agents Exploit Vulnerabilities [0.0]
ツールアクセスを持つLLMエージェントは、セキュリティ脆弱性を悪用することができる。
不明なのは、システムのどの機能がこの振る舞いをトリガーし、どれがそうでないかである。
7つのモデル,37のプロンプト条件,12の仮説的攻撃次元の1万の試行に基づく系統分類を提示する。
論文 参考訳(メタデータ) (2026-04-06T09:44:34Z) - BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation [34.429649156970015]
以前の評価では、検索なしでベースモデルをテストしたが、これは現在の慣行を反映していない。
3つの検索可能なフロンティアモデルでは、9つのフィールドと6方向のエラー分類に基づいてBibエントリを生成する。
全体的な精度は83.6%だが、完全な正確さは50.9%に過ぎない。
論文 参考訳(メタデータ) (2026-04-03T16:30:58Z) - DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.85182605005619]
トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。
銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。
我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文 参考訳(メタデータ) (2025-05-29T02:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。