論文の概要: Towards Realistic Optimization Benchmarks: A Questionnaire on the
Properties of Real-World Problems
- arxiv url: http://arxiv.org/abs/2004.06395v1
- Date: Tue, 14 Apr 2020 10:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:16:20.556975
- Title: Towards Realistic Optimization Benchmarks: A Questionnaire on the
Properties of Real-World Problems
- Title(参考訳): 現実最適化ベンチマークに向けて:実世界の問題の性質に関するアンケート調査
- Authors: Koen van der Blom, Timo M. Deist, Tea Tu\v{s}ar, Mariapia Marchi,
Yusuke Nojima, Akira Oyama, Vanessa Volz, Boris Naujoks
- Abstract要約: 本研究は,実世界の問題の特徴をアンケートによって同定することを目的としている。
現実的なベンチマークの設計において考慮すべきいくつかの課題は、すでに特定できる。
今後の作業の重要なポイントは、質問に対する回答をもっと集めることだ。
- 参考スコア(独自算出の注目度): 2.805617945875364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks are a useful tool for empirical performance comparisons. However,
one of the main shortcomings of existing benchmarks is that it remains largely
unclear how they relate to real-world problems. What does an algorithm's
performance on a benchmark say about its potential on a specific real-world
problem? This work aims to identify properties of real-world problems through a
questionnaire on real-world single-, multi-, and many-objective optimization
problems. Based on initial responses, a few challenges that have to be
considered in the design of realistic benchmarks can already be identified. A
key point for future work is to gather more responses to the questionnaire to
allow an analysis of common combinations of properties. In turn, such common
combinations can then be included in improved benchmark suites. To gather more
data, the reader is invited to participate in the questionnaire at:
https://tinyurl.com/opt-survey
- Abstract(参考訳): ベンチマークは経験的なパフォーマンス比較に役立つツールです。
しかし、既存のベンチマークの主な欠点の1つは、それらが実際の問題とどのように関係しているかがはっきりしていないことである。
ベンチマークにおけるアルゴリズムのパフォーマンスは、特定の実世界の問題に対する可能性について何を言っているのか?
本研究の目的は,実世界の単一・多目的・多目的最適化問題に対する質問紙調査を通して,実世界の問題の性質を明らかにすることである。
最初の反応に基づいて、現実的なベンチマークの設計において考慮すべきいくつかの課題がすでに特定できる。
今後の研究のポイントは、アンケートに対する回答をもっと集めて、共通の属性の組み合わせの分析を可能にすることです。
結果として、このような共通組み合わせを改良されたベンチマークスイートに含めることができる。
より多くのデータを収集するために、読者は以下のアンケートに参加するよう招待される。
関連論文リスト
- ERBench: An Entity-Relationship based Automatically Verifiable
Hallucination Benchmark for Large Language Models [48.38966595131693]
大規模言語モデル(LLM)は、様々なアプリケーションにおいて前例のない性能を達成したが、その評価は依然として重要な問題である。
既存のリレーショナルデータベースを利用することは、正確な知識記述のためにベンチマークを構築する上で有望なアプローチである、と我々は主張する。
本稿では,エンティティ・リレーショナル・モデル(ER)に基づいて,関係データベースを自動的にベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - CRoW: Benchmarking Commonsense Reasoning in Real-World Tasks [29.35269979211728]
CRoWは,6つの実世界のNLPタスクの文脈において,コモンセンス推論を適用するモデルの能力を評価するベンチマークである。
我々は、CRoWを用いて、NLPシステムが、物理的、時間的、社会的推論など、さまざまなコモンセンス知識の次元でどのように機能するかを研究する。
実世界のタスク設定において,NLPシステムが人間に比べてCRoW上で評価される場合,コモンセンス推論が解決されるには程遠いことを示す。
論文 参考訳(メタデータ) (2023-10-23T18:00:23Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - A Complementarity Analysis of the COCO Benchmark Problems and
Artificially Generated Problems [0.0]
本稿では,このような単目的連続問題生成手法をCOCOベンチマーク問題セットと比較検討する。
このような表現により、可視化と相関解析技術を適用して、問題間の関係をさらに探求できることを示す。
論文 参考訳(メタデータ) (2021-04-27T09:18:43Z) - Identifying Properties of Real-World Optimisation Problems through a
Questionnaire [2.805617945875364]
本研究は, 実世界の課題の実態を質問紙で調査する。
これは将来のベンチマーク問題の設計を可能にし、現実世界で見られる問題とよりよく似ている。
論文 参考訳(メタデータ) (2020-11-11T05:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。