論文の概要: Competitions in AI -- Robustly Ranking Solvers Using Statistical
Resampling
- arxiv url: http://arxiv.org/abs/2308.05062v1
- Date: Wed, 9 Aug 2023 16:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 12:54:09.716534
- Title: Competitions in AI -- Robustly Ranking Solvers Using Statistical
Resampling
- Title(参考訳): AIの競争 - 統計的サンプリングを用いたロバストなランク付けソリューション
- Authors: Chris Fawcett, Mauro Vallati, Holger H. Hoos, Alfonso E. Gerevini
- Abstract要約: 比較結果の標準的な解釈から得られたランキングは、評価の基礎として使われるベンチマークインスタンスセットのマイナーな変更にも非常に敏感であることを示す。
本稿では,性能データの再サンプリングに基づく競争結果の統計的に有意な分析手法を提案する。
提案手法は,競合スコアの信頼区間を生成するとともに,有界誤差を持つ統計的に堅牢な解法ランキングを生成する。
- 参考スコア(独自算出の注目度): 9.02080113915613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solver competitions play a prominent role in assessing and advancing the
state of the art for solving many problems in AI and beyond. Notably, in many
areas of AI, competitions have had substantial impact in guiding research and
applications for many years, and for a solver to be ranked highly in a
competition carries considerable weight. But to which extent can we expect
competition results to generalise to sets of problem instances different from
those used in a particular competition? This is the question we investigate
here, using statistical resampling techniques. We show that the rankings
resulting from the standard interpretation of competition results can be very
sensitive to even minor changes in the benchmark instance set used as the basis
for assessment and can therefore not be expected to carry over to other samples
from the same underlying instance distribution. To address this problem, we
introduce a novel approach to statistically meaningful analysis of competition
results based on resampling performance data. Our approach produces confidence
intervals of competition scores as well as statistically robust solver rankings
with bounded error. Applied to recent SAT, AI planning and computer vision
competitions, our analysis reveals frequent statistical ties in solver
performance as well as some inversions of ranks compared to the official
results based on simple scoring.
- Abstract(参考訳): ソルバー競技は、AI以上の多くの問題を解決するために、最先端の技術を評価、推進する上で重要な役割を果たしている。
特に、AIの多くの分野において、競争は長い間研究と応用の指導に大きな影響を与えており、競争において高いランクにランク付けされるためにはかなりの重みがある。
しかし、競争の結果が特定の競争で使用されるものとは異なる問題インスタンスの集合に一般化できると期待できるだろうか?
統計的再サンプリング技術を用いて、ここで調査する質問です。
評価基準として使用するベンチマークインスタンスセットの微妙な変更に対しても,競合結果の標準的な解釈から得られるランキングは極めて敏感であり,それゆえ,下位のインスタンス分布から他のサンプルに移行することは期待できない。
この問題に対処するために,性能データの再サンプリングに基づく競争結果の統計的に有意義な分析手法を提案する。
提案手法は,競争スコアの信頼区間と,有界誤差のある統計的にロバストなソルバランキングを生成する。
近年のSAT、AI計画、コンピュータビジョンコンペティションに応用すると、簡単なスコアリングに基づく公式結果と比較して、解解器の性能とランクの逆転の統計的関係が頻繁に見られる。
関連論文リスト
- Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Analysis of Systems' Performance in Natural Language Processing Competitions [6.197993866688085]
本論文は,競技結果と競技成績を統計的に分析するための評価手法について述べる。
提案手法は,修正機構との比較や信頼区間の包含など,いくつかの利点がある。
本分析は,競争結果を効果的に評価するための方法論の有用性を示す。
論文 参考訳(メタデータ) (2024-03-07T17:42:40Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Comparison of classifiers in challenge scheme [12.030094148004176]
本稿では,MeOffendEs@IberLEF 2021コンペティションの結果を分析する。
チャレンジ主催者の意思決定を支援するために,再サンプリング技術(ブートストラップ)による推論を提案する。
論文 参考訳(メタデータ) (2023-05-16T23:38:34Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - A portfolio-based analysis method for competition results [0.8680676599607126]
本稿では,コンペティションに参加する問題解決者のパフォーマンスを補完するポートフォリオベースの分析手法について述べる。
本手法はMiniZinc Challengesの結果に示され,ポートフォリオの観点から得られた新たな知見が提示される。
論文 参考訳(メタデータ) (2022-05-30T20:20:45Z) - Towards robust and domain agnostic reinforcement learning competitions [12.731614722371376]
強化学習コンペティションは標準研究ベンチマークの基礎を形成している。
それにもかかわらず、ほとんどの課題は、同じ根本的な問題に悩まされている。
本稿では,これらの障壁を克服するアルゴリズムの開発を促進する,競争設計の新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:15:46Z) - Multi-Stage Decentralized Matching Markets: Uncertain Preferences and
Strategic Behaviors [91.3755431537592]
本稿では、現実世界のマッチング市場で最適な戦略を学ぶためのフレームワークを開発する。
我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。
シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。
論文 参考訳(メタデータ) (2021-02-13T19:25:52Z) - Analysing Affective Behavior in the First ABAW 2020 Competition [49.90617840789334]
ABAW(Affective Behavior Analysis in-the-Wild) 2020コンペティションは、3つの主要な行動タスクの自動分析を目的とした最初のコンペティションである。
アルゼンチンのブエノスアイレスで2020年5月に開催されたIEEE Face and Gesture Recognitionと共同で開催されるこのコンペティションについて説明する。
評価指標を概説し,ベースラインシステムとトップ3の実施するチームの方法論をチャレンジ毎に提示し,その結果を最終的に提示する。
論文 参考訳(メタデータ) (2020-01-30T15:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。