Fugu-MT 論文翻訳(概要): Ten New Benchmarks for Optimization

関連論文リスト

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。 IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文参考訳（メタデータ） (2026-03-05T02:21:17Z)
Aligning Language Model Benchmarks with Pairwise Preferences [15.427340427081843]
ベンチマークアライメントを導入し、モデルパフォーマンスに関する限られた量の情報を使用して、オフラインベンチマークを自動的に更新します。次に、ベンチマーク問題に対する優先順の重み付けを学習するBenchAlignを提案する。我々の実験は、一致したベンチマークが、異なるサイズであっても、人間の好みのモデルに従って、正確に、見つからないモデルをランク付けできることを示している。
論文参考訳（メタデータ） (2026-02-02T23:11:09Z)
Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-09-14T05:49:42Z)
Efficiently Ranking Software Variants with Minimal Benchmarks [7.542554018860094]
テストスイート最適化手法を用いて、安定したランキングを維持しながらベンチマークを削減できる新しい手法を提案する。つまり、すべてのテストで変種と同じランキングを維持しながら、ベンチマークからインスタンスを削除します。 BISection Smpling(BISection Smpling, BISS)は, 最重要試験を戦略的に保持し, 新規な分別・対数法を適用して, 関連試験を効率的にサンプリングする手法である。
論文参考訳（メタデータ） (2025-09-08T14:11:35Z)
Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation [103.66549325018741]
現在のベンチマークの違いを示す2つの重要な指標を紹介します。より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合、より信頼性が高いことを示す。結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
論文参考訳（メタデータ） (2025-08-18T17:56:04Z)
RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
A Review of 315 Benchmark and Test Functions for Machine Learning Optimization Algorithms and Metaheuristics with Mathematical and Visual Descriptions [10.92790791696717]
急速に進化する最適化とメタヒューリスティックス領域では、アルゴリズムの有効性はベンチマーク(テスト)関数によって決定される。本稿では,最適化アルゴリズムとメタヒューリスティックスアルゴリズムの評価に使用される300以上のベンチマーク関数について概説する。
論文参考訳（メタデータ） (2024-06-13T20:39:59Z)
muRelBench: MicroBenchmarks for Zonotope Domains [1.2430809884830318]
texttmuRelBenchは、弱い関係の抽象ドメインとその操作のための合成ベンチマークのためのフレームワークである。このマイクロベンチマークフレームワークは,数値抽象領域に対する提案アルゴリズムを実験的に評価することを可能にする。
論文参考訳（メタデータ） (2024-04-24T23:16:23Z)
Evolving Benchmark Functions to Compare Evolutionary Algorithms via Genetic Programming [3.838204385427238]
我々は、新しい最適化ベンチマーク関数を構成するために、遺伝的プログラミング(GP)を利用する。 GPによって生成されたベンチマークは、人為的なベンチマーク関数よりもアルゴリズムの区別が優れていることを示す。
論文参考訳（メタデータ） (2024-03-21T05:42:17Z)
Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文参考訳（メタデータ） (2023-06-18T01:58:59Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
Defining Standard Strategies for Quantum Benchmarks [0.1759008116536278]
我々は、どのベンチマークも従うべき特徴のセットを定義し、ベンチマークと診断を区別する。ベンチマーク最適化の問題点、それらの最適化がいつ適切か、どのように報告されるべきか、について論じる。スケーラブルなミラー量子ボリュームベンチマークを導入する。
論文参考訳（メタデータ） (2023-03-03T17:50:34Z)
Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文参考訳（メタデータ） (2022-09-27T17:51:31Z)
EXPObench: Benchmarking Surrogate-based Optimisation Algorithms on Expensive Black-box Functions [4.8980686156238535]
本研究では,6種類のサロゲートアルゴリズムを,異なる実環境アプリケーションから4つの高価な最適化問題に対して広範囲に比較する。これにより、探査の相対的重要性、目的物の評価時間、使用済みモデルに関する新たな洞察がもたらされた。アルゴリズムとベンチマーク問題インスタンスを公開し、サロゲートアルゴリズムのより均一な分析に寄与する。
論文参考訳（メタデータ） (2021-06-08T18:17:42Z)
On the Assessment of Benchmark Suites for Algorithm Comparison [7.501426386641256]
BBOBスイートのほとんどのベンチマーク関数は、高い難易度(最適化アルゴリズムと比較)と低い差別性を有することを示す。我々は、ベンチマークスイートの設計を改善することを含む、ベンチマークにおけるIRTの潜在的な使用について論じる。
論文参考訳（メタデータ） (2021-04-15T11:20:11Z)
How much progress have we made in neural network training? A New Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文参考訳（メタデータ） (2020-10-19T21:46:39Z)
Incorporating Expert Prior in Bayesian Optimisation via Space Warping [54.412024556499254]
大きな探索空間では、アルゴリズムは関数の最適値に達する前に、いくつかの低関数値領域を通過する。このコールドスタートフェーズの1つのアプローチは、最適化を加速できる事前知識を使用することである。本稿では,関数の事前分布を通じて,関数の最適性に関する事前知識を示す。先行分布は、探索空間を最適関数の高確率領域の周りに拡張し、最適関数の低確率領域の周りに縮小するようにワープする。
論文参考訳（メタデータ） (2020-03-27T06:18:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Ten New Benchmarks for Optimization

関連論文リスト