論文の概要: Inherent Trade-Offs between Diversity and Stability in Multi-Task Benchmarks
- arxiv url: http://arxiv.org/abs/2405.01719v2
- Date: Mon, 6 May 2024 15:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 12:26:52.090402
- Title: Inherent Trade-Offs between Diversity and Stability in Multi-Task Benchmarks
- Title(参考訳): マルチタスクベンチマークにおける多様性と安定性の因果的トレードオフ
- Authors: Guanhua Zhang, Moritz Hardt,
- Abstract要約: 社会的選択論のレンズを用いた機械学習におけるマルチタスクベンチマークについて検討する。
ベンチマークの多様性が増すほど、自明な変更に敏感になることが示されます。
- 参考スコア(独自算出の注目度): 20.24270790628136
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We examine multi-task benchmarks in machine learning through the lens of social choice theory. We draw an analogy between benchmarks and electoral systems, where models are candidates and tasks are voters. This suggests a distinction between cardinal and ordinal benchmark systems. The former aggregate numerical scores into one model ranking; the latter aggregate rankings for each task. We apply Arrow's impossibility theorem to ordinal benchmarks to highlight the inherent limitations of ordinal systems, particularly their sensitivity to the inclusion of irrelevant models. Inspired by Arrow's theorem, we empirically demonstrate a strong trade-off between diversity and sensitivity to irrelevant changes in existing multi-task benchmarks. Our result is based on new quantitative measures of diversity and sensitivity that we introduce. Sensitivity quantifies the impact that irrelevant changes to tasks have on a benchmark. Diversity captures the degree of disagreement in model rankings across tasks. We develop efficient approximation algorithms for both measures, as exact computation is computationally challenging. Through extensive experiments on seven cardinal benchmarks and eleven ordinal benchmarks, we demonstrate a clear trade-off between diversity and stability: The more diverse a multi-task benchmark, the more sensitive to trivial changes it is. Additionally, we show that the aggregated rankings of existing benchmarks are highly unstable under irrelevant changes. The codes and data are available at https://socialfoundations.github.io/benchbench/.
- Abstract(参考訳): 社会的選択論のレンズを用いた機械学習におけるマルチタスクベンチマークについて検討する。
我々は、モデルが候補であり、タスクが投票者である、ベンチマークと選挙システムの間の類似性を描く。
これは、基数ベンチマークと順序ベンチマークの区別を示唆している。
前者の集計スコアは1つのモデルランキングに分類され、後者の集計スコアは各タスクごとにランク付けされる。
順序数ベンチマークにアローの不合理性定理を適用し、順序数系の固有の制限、特に無関係なモデルの包含に対する感度を強調する。
Arrowの定理に触発されて、既存のマルチタスクベンチマークにおける無関係な変化に対する多様性と感受性の強いトレードオフを実証的に実証した。
この結果は、私たちが導入した多様性と感度の新しい定量的尺度に基づいています。
感度は、タスクの無関係な変更がベンチマークに与える影響を定量化する。
多様性は、タスク間のモデルランキングにおける不一致の度合いを捉えます。
正確な計算が困難であるため,両測度に対する効率的な近似アルゴリズムを開発した。
7つのベンチマークと11の順序ベンチマークに関する広範な実験を通じて、多様性と安定性の間に明確なトレードオフが示されている。
さらに、既存のベンチマークの集計されたランキングは、無関係な変更の下で非常に不安定であることを示す。
コードとデータはhttps://socialfoundations.github.io/benchbench/で公開されている。
関連論文リスト
- Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - The Curse of Low Task Diversity: On the Failure of Transfer Learning to
Outperform MAML and Their Empirical Equivalence [20.965759895300327]
数ショットの学習ベンチマークでタスクの多様性を測定するための新しい指標である多様性係数を提案する。
多様性係数を用いて、人気の MiniImageNet と CIFAR-FS の少数ショット学習ベンチマークの多様性が低いことを示す。
論文 参考訳(メタデータ) (2022-08-02T15:49:11Z) - Few-Shot Image Classification Benchmarks are Too Far From Reality: Build
Back Better with Semantic Task Sampling [4.855663359344748]
デンマークのFungi 2020データセットを用いたFew-Shot画像分類のための新しいベンチマークを提案する。
本ベンチマークでは,様々な微粒度を用いた多種多様な評価課題を提案する。
本実験は,タスクの難易度とクラス間の意味的類似度との間に相関関係を生じさせる。
論文 参考訳(メタデータ) (2022-05-10T20:25:43Z) - Towards QD-suite: developing a set of benchmarks for Quality-Diversity
algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。
我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文 参考訳(メタデータ) (2022-05-06T13:33:50Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - MultiFair: Multi-Group Fairness in Machine Learning [52.24956510371455]
機械学習におけるマルチグループフェアネスの研究(MultiFair)
この問題を解決するために,汎用的なエンドツーエンドのアルゴリズムフレームワークを提案する。
提案するフレームワークは多くの異なる設定に一般化可能である。
論文 参考訳(メタデータ) (2021-05-24T02:30:22Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。