Fugu-MT 論文翻訳(概要): Procrustean Bed for AI-Driven Retrosynthesis: A Unified Framework for Reproducible Evaluation

論文の概要: Procrustean Bed for AI-Driven Retrosynthesis: A Unified Framework for Reproducible Evaluation

arxiv url: http://arxiv.org/abs/2512.07079v1
Date: Mon, 08 Dec 2025 01:26:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.670473
Title: Procrustean Bed for AI-Driven Retrosynthesis: A Unified Framework for Reproducible Evaluation
Title（参考訳）: Procrustean Bed for AI-Driven Retro synthesis: unified Framework for Reproducible Evaluation
Authors: Anton Morgunov, Victor S. Batista,
Abstract要約: RetroCastは、異種モデルの出力を共通スキーマに標準化する統合評価スイートである。我々は、新しい標準ベンチマークスイートを用いて、検索ベースおよびシーケンスベースの主要なアルゴリズムを評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Progress in computer-aided synthesis planning (CASP) is obscured by the lack of standardized evaluation infrastructure and the reliance on metrics that prioritize topological completion over chemical validity. We introduce RetroCast, a unified evaluation suite that standardizes heterogeneous model outputs into a common schema to enable statistically rigorous, apples-to-apples comparison. The framework includes a reproducible benchmarking pipeline with stratified sampling and bootstrapped confidence intervals, accompanied by SynthArena, an interactive platform for qualitative route inspection. We utilize this infrastructure to evaluate leading search-based and sequence-based algorithms on a new suite of standardized benchmarks. Our analysis reveals a divergence between "solvability" (stock-termination rate) and route quality; high solvability scores often mask chemical invalidity or fail to correlate with the reproduction of experimental ground truths. Furthermore, we identify a "complexity cliff" in which search-based methods, despite high solvability rates, exhibit a sharp performance decay in reconstructing long-range synthetic plans compared to sequence-based approaches. We release the full framework, benchmark definitions, and a standardized database of model predictions to support transparent and reproducible development in the field.
Abstract（参考訳）: コンピュータ支援合成計画(CASP)の進歩は、標準化された評価基盤の欠如と、化学的妥当性よりもトポロジカルな完成を優先する指標への依存によって明らかになる。 RetroCastは、異種モデル出力を共通スキーマに標準化し、統計的に厳密なアプレット間比較を可能にする統合評価スイートである。フレームワークには、階層化されたサンプリングとブートストラップされた信頼区間を備えた再現可能なベンチマークパイプラインと、質的なルート検査のためのインタラクティブなプラットフォームであるSynthArenaが含まれている。我々は、このインフラを利用して、新しい標準ベンチマークスイートにおいて、検索ベースおよびシーケンスベースの主要なアルゴリズムを評価する。分析の結果,「可溶性」と経路品質の相違が明らかとなり,高い可溶性スコアはしばしば化学的無効を隠蔽するか,実験的な地平の再現と相関しない。さらに,探索に基づく手法では,高い可溶性率にもかかわらず,長距離合成計画の再構築において,シーケンスベース手法と比較して急激な性能低下を示す「複雑崖」を同定した。我々は、この分野における透明で再現可能な開発をサポートするために、完全なフレームワーク、ベンチマーク定義、およびモデル予測の標準化されたデータベースをリリースする。

関連論文リスト

EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。問題、多様な候補解、検証成果物を共同で合成する。これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文参考訳（メタデータ） (2025-10-20T11:56:35Z)
OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。 OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文参考訳（メタデータ） (2025-10-12T13:46:28Z)
On Evaluating Performance of LLM Inference Serving Systems [11.712948114304925]
ベースラインフェアネス、評価設定、メトリックデザインの3つの重要な側面で繰り返し発生するアンチパターンを特定します。これらのアンチパターンは、その二重相の性質のため、Large Language Model (LLM)推論に固有の問題である。分析から得られた包括的なチェックリストを提供し、これらのアンチパターンを認識して回避するためのフレームワークを構築します。
論文参考訳（メタデータ） (2025-07-11T20:58:21Z)
EVA-MILP: Towards Standardized Evaluation of MILP Instance Generation [13.49043811341421]
混合整数線形プログラミング(MILP)は、複雑な意思決定問題を解決するための基礎となる。多様なデータセットに対する機械学習の需要により,MILPインスタンス生成手法の普及が加速し,標準化された評価手法が大幅に向上した。本稿では,MILPインスタンス生成手法の体系的および客観的評価を目的とした総合ベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-30T16:42:15Z)
Generalization is not a universal guarantee: Estimating similarity to training data with an ensemble out-of-distribution metric [0.09363323206192666]
機械学習モデルの新しいデータへの一般化の失敗は、AIシステムの信頼性を制限する中核的な問題である。本稿では、一般化可能性推定(SAGE)のための教師付きオートエンコーダを構築することにより、データの類似性を評価するための標準化されたアプローチを提案する。モデル自体のトレーニングやテストデータセットのデータに適用しても,SAGEスコアのフィルタリング後にアウト・オブ・ボックスモデルの性能が向上することを示す。
論文参考訳（メタデータ） (2025-02-22T19:21:50Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文参考訳（メタデータ） (2024-05-02T13:48:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。