Fugu-MT 論文翻訳(概要): Bridging the Evaluation Gap: Standardized Benchmarks for Multi-Objective Search

論文の概要: Bridging the Evaluation Gap: Standardized Benchmarks for Multi-Objective Search

arxiv url: http://arxiv.org/abs/2603.24084v1
Date: Wed, 25 Mar 2026 08:45:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.215436
Title: Bridging the Evaluation Gap: Standardized Benchmarks for Multi-Objective Search
Title（参考訳）: 評価ギャップのブリッジ:多目的検索のための標準ベンチマーク
Authors: Hadar Peer, Carlos Hernandez, Sven Koenig, Ariel Felner, Oren Salzman,
Abstract要約: 我々は、MOS(Multi-objective search)の正確で近似的なベンチマークスイートを初めて導入する。我々のスイートは、現実世界の道路網、構造化された合成グラフ、ゲームベースのグリッド環境、高次元ロボットモーションプランニングロードマップという、構造的に多様な4つの領域にまたがっている。
参考スコア（独自算出の注目度）: 19.834978083336022
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Empirical evaluation in multi-objective search (MOS) has historically suffered from fragmentation, relying on heterogeneous problem instances with incompatible objective definitions that make cross-study comparisons difficult. This standardization gap is further exacerbated by the realization that DIMACS road networks, a historical default benchmark for the field, exhibit highly correlated objectives that fail to capture diverse Pareto-front structures. To address this, we introduce the first comprehensive, standardized benchmark suite for exact and approximate MOS. Our suite spans four structurally diverse domains: real-world road networks, structured synthetic graphs, game-based grid environments, and high-dimensional robotic motion-planning roadmaps. By providing fixed graph instances, standardized start-goal queries, and both exact and approximate reference Pareto-optimal solution sets, this suite captures a full spectrum of objective interactions: from strongly correlated to strictly independent. Ultimately, this benchmark provides a common foundation to ensure future MOS evaluations are robust, reproducible, and structurally comprehensive.
Abstract（参考訳）: 多目的探索(MOS)における経験的評価は歴史的に断片化に悩まされてきた。この標準化のギャップは、フィールドの歴史的デフォルトのベンチマークであるDIMACSロードネットワークが、多様なパレートフロント構造を捉えるのに失敗する非常に相関性の高い目的を示すという認識によってさらに悪化する。この問題に対処するため、我々はMOSの正確かつ近似的なベンチマークスイートを初めて導入した。我々のスイートは、現実世界の道路網、構造化された合成グラフ、ゲームベースのグリッド環境、高次元ロボットモーションプランニングロードマップという、構造的に多様な4つの領域にまたがっている。固定グラフインスタンス、標準化されたスタートゴールクエリ、および正確かつ近似的な参照 Pareto-Optimal ソリューションセットを提供することにより、このスイートは、強い相関から厳密な独立性に至るまで、客観的相互作用の完全なスペクトルをキャプチャする。最終的に、このベンチマークは将来のMOS評価が堅牢で再現可能で、構造的に包括的であることを保証する共通の基盤を提供する。

関連論文リスト

MOSIV: Multi-Object System Identification from Videos [54.53609234233857]
本稿では,映像から導出される幾何学的目的によって導かれる微分可能シミュレータを用いて,連続的かつ対象ごとの材料パラメータを直接最適化するフレームワークを提案する。また,接触に富んだ多目的インタラクションを用いた新しい総合的ベンチマークを提案し,評価を容易にする。
論文参考訳（メタデータ） (2026-03-06T08:16:16Z)
Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities [2.9203730377983654]
既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
論文参考訳（メタデータ） (2026-01-26T15:02:15Z)
Procrustean Bed for AI-Driven Retrosynthesis: A Unified Framework for Reproducible Evaluation [0.0]
RetroCastは、異種モデルの出力を共通スキーマに標準化する統合評価スイートである。我々は、新しい標準ベンチマークスイートを用いて、検索ベースおよびシーケンスベースの主要なアルゴリズムを評価する。
論文参考訳（メタデータ） (2025-12-08T01:26:39Z)
On Generalization Across Environments In Multi-Objective Reinforcement Learning [6.686583184622338]
我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
論文参考訳（メタデータ） (2025-03-02T08:50:14Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文参考訳（メタデータ） (2023-10-18T07:30:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。