論文の概要: Towards Realistic Optimization Benchmarks: A Questionnaire on the
Properties of Real-World Problems
- arxiv url: http://arxiv.org/abs/2004.06395v1
- Date: Tue, 14 Apr 2020 10:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-13 09:16:20.556975
- Title: Towards Realistic Optimization Benchmarks: A Questionnaire on the
Properties of Real-World Problems
- Title(参考訳): 現実最適化ベンチマークに向けて:実世界の問題の性質に関するアンケート調査
- Authors: Koen van der Blom, Timo M. Deist, Tea Tu\v{s}ar, Mariapia Marchi,
Yusuke Nojima, Akira Oyama, Vanessa Volz, Boris Naujoks
- Abstract要約: 本研究は,実世界の問題の特徴をアンケートによって同定することを目的としている。
現実的なベンチマークの設計において考慮すべきいくつかの課題は、すでに特定できる。
今後の作業の重要なポイントは、質問に対する回答をもっと集めることだ。
- 参考スコア(独自算出の注目度): 2.805617945875364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks are a useful tool for empirical performance comparisons. However,
one of the main shortcomings of existing benchmarks is that it remains largely
unclear how they relate to real-world problems. What does an algorithm's
performance on a benchmark say about its potential on a specific real-world
problem? This work aims to identify properties of real-world problems through a
questionnaire on real-world single-, multi-, and many-objective optimization
problems. Based on initial responses, a few challenges that have to be
considered in the design of realistic benchmarks can already be identified. A
key point for future work is to gather more responses to the questionnaire to
allow an analysis of common combinations of properties. In turn, such common
combinations can then be included in improved benchmark suites. To gather more
data, the reader is invited to participate in the questionnaire at:
https://tinyurl.com/opt-survey
- Abstract(参考訳): ベンチマークは経験的なパフォーマンス比較に役立つツールです。
しかし、既存のベンチマークの主な欠点の1つは、それらが実際の問題とどのように関係しているかがはっきりしていないことである。
ベンチマークにおけるアルゴリズムのパフォーマンスは、特定の実世界の問題に対する可能性について何を言っているのか?
本研究の目的は,実世界の単一・多目的・多目的最適化問題に対する質問紙調査を通して,実世界の問題の性質を明らかにすることである。
最初の反応に基づいて、現実的なベンチマークの設計において考慮すべきいくつかの課題がすでに特定できる。
今後の研究のポイントは、アンケートに対する回答をもっと集めて、共通の属性の組み合わせの分析を可能にすることです。
結果として、このような共通組み合わせを改良されたベンチマークスイートに含めることができる。
より多くのデータを収集するために、読者は以下のアンケートに参加するよう招待される。
関連論文リスト
- GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - BONO-Bench: A Comprehensive Test Suite for Bi-objective Numerical Optimization with Traceable Pareto Sets [0.0]
本稿では,二目的数値最適化問題に対する広範囲な問題生成手法を提案する。
決定変数の数などのテスト問題プロパティの設定をサポートする。
提案するジェネレータの一般的なアプローチは,再現可能なベンチマークを容易にするために,Pythonパッケージの textttbonobench でリリースされている。
論文 参考訳(メタデータ) (2026-01-23T18:42:20Z) - Fantastic Bugs and Where to Find Them in AI Benchmarks [28.604919035475188]
本稿では, 応答パターンの統計的解析を利用して, 潜在的に無効な質問にフラグを付ける手法を提案する。
我々のアプローチは、平均スコアがモデル性能を十分に要約する、AI評価で一般的に使用されるコア仮定に基づいています。
提案手法は,9つの広く使用されているベンチマークにおいて,最大84%の精度で問題のある問題を特定するために専門家のレビューをガイドする。
論文 参考訳(メタデータ) (2025-11-20T22:49:21Z) - Benchmarking that Matters: Rethinking Benchmarking for Practical Impact [2.952553461344481]
本稿では,実世界のベンチマーク,実践者が利用できる機能空間,コミュニティが維持するパフォーマンスデータベースを中心にしたビジョンを提案する。
現実の洞察とともに進化し、科学的理解と産業的利用の両方をサポートする生きたベンチマークエコシステム。
論文 参考訳(メタデータ) (2025-11-15T15:42:15Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - A Standardized Benchmark Set of Clustering Problem Instances for Comparing Black-Box Optimizers [1.8133635942659796]
データクラスタリング問題に基づく連続ブラックボックス最適化アルゴリズムの評価のための標準ベンチマークスイートを提案する。
我々のベンチマークセットはオープンソースであり、将来の研究での使用を促進するため、IOH prominentrベンチマークフレームワークと統合されています。
論文 参考訳(メタデータ) (2025-05-14T09:16:19Z) - Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - AutoBencher: Towards Declarative Benchmark Construction [74.54640925146289]
AutoBencherを使って、数学、多言語性、知識、安全性のためのデータセットを作成しています。
AutoBencherのスケーラビリティにより、詳細なカテゴリ知識をテストでき、既存のベンチマークよりも22%のモデルエラー(難易度)を誘発するデータセットを作成することができる。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。
そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。
我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文 参考訳(メタデータ) (2024-07-01T10:33:44Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Benchmarking Video Frame Interpolation [11.918489436283748]
提案手法は,提案するWebサイトを利用して,一貫したエラーメトリクスを確立するベンチマークである。
また、合成データを利用して線形性の仮定に忠実なテストセットを提案し、コヒーレントな方法で計算効率を評価する。
論文 参考訳(メタデータ) (2024-03-25T19:13:12Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - A Complementarity Analysis of the COCO Benchmark Problems and
Artificially Generated Problems [0.0]
本稿では,このような単目的連続問題生成手法をCOCOベンチマーク問題セットと比較検討する。
このような表現により、可視化と相関解析技術を適用して、問題間の関係をさらに探求できることを示す。
論文 参考訳(メタデータ) (2021-04-27T09:18:43Z) - Identifying Properties of Real-World Optimisation Problems through a
Questionnaire [2.805617945875364]
本研究は, 実世界の課題の実態を質問紙で調査する。
これは将来のベンチマーク問題の設計を可能にし、現実世界で見られる問題とよりよく似ている。
論文 参考訳(メタデータ) (2020-11-11T05:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。