論文の概要: Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition
- arxiv url: http://arxiv.org/abs/2406.09073v1
- Date: Thu, 13 Jun 2024 12:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:54:00.210860
- Title: Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition
- Title(参考訳): アンラーニングの進展か?最初のNeurIPSアンラーニングコンペティションから
- Authors: Eleni Triantafillou, Peter Kairouz, Fabian Pedregosa, Jamie Hayes, Meghdad Kurmanji, Kairan Zhao, Vincent Dumoulin, Julio Jacques Junior, Ioannis Mitliagkas, Jun Wan, Lisheng Sun Hosoya, Sergio Escalera, Gintare Karolina Dziugaite, Peter Triantafillou, Isabelle Guyon,
- Abstract要約: アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
- 参考スコア(独自算出の注目度): 70.60872754129832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the findings of the first NeurIPS competition on unlearning, which sought to stimulate the development of novel algorithms and initiate discussions on formal and robust evaluation methodologies. The competition was highly successful: nearly 1,200 teams from across the world participated, and a wealth of novel, imaginative solutions with different characteristics were contributed. In this paper, we analyze top solutions and delve into discussions on benchmarking unlearning, which itself is a research problem. The evaluation methodology we developed for the competition measures forgetting quality according to a formal notion of unlearning, while incorporating model utility for a holistic evaluation. We analyze the effectiveness of different instantiations of this evaluation framework vis-a-vis the associated compute cost, and discuss implications for standardizing evaluation. We find that the ranking of leading methods remains stable under several variations of this framework, pointing to avenues for reducing the cost of evaluation. Overall, our findings indicate progress in unlearning, with top-performing competition entries surpassing existing algorithms under our evaluation framework. We analyze trade-offs made by different algorithms and strengths or weaknesses in terms of generalizability to new datasets, paving the way for advancing both benchmarking and algorithm development in this important area.
- Abstract(参考訳): 我々は,新しいアルゴリズムの開発を刺激し,形式的および堅牢な評価方法論に関する議論を開始することを目的とした,初回NeurIPSコンペティションの成果を提示する。
世界中から1200人近いチームが参加し、様々な特徴を持つ斬新で想像力に富んだソリューションが貢献した。
本稿では、トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げる。
コンペティションのために開発した評価手法は, 総合評価のためのモデルユーティリティを取り入れたまま, 学習の形式的概念に従って品質を忘れる尺度である。
本稿では,この評価フレームワークの異なるインスタンス化の有効性を,関連する計算コストに比例して分析し,評価の標準化の意義について論じる。
この枠組みの様々なバリエーションの下で, 先行手法のランク付けは安定であり, 評価のコスト削減の道筋を示す。
総じて, 評価枠組みの下では, 既存のアルゴリズムを上回り, 成績の高いコンペのエントリーが, 未学習の進展を示唆している。
我々は、新しいデータセットへの一般化可能性の観点から、異なるアルゴリズムと強みまたは弱みによって作られたトレードオフを分析し、この重要な領域におけるベンチマークとアルゴリズム開発の両方を前進させる道を開く。
関連論文リスト
- Absolute Ranking: An Essential Normalization for Benchmarking Optimization Algorithms [0.0]
多くの問題における最適化アルゴリズムの性能評価は,数値スケールの多様性が原因で複雑な問題となる。
本稿では,この問題を広範囲に検討し,根本原因の根本原因を徹底的に解析する上で説得力のある事例を提示する。
本研究では,「絶対ランク付け」と呼ばれる新しい数学的モデルとサンプリングに基づく計算手法を提案する。
論文 参考訳(メタデータ) (2024-09-06T00:55:03Z) - Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。
HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。
本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文 参考訳(メタデータ) (2024-07-09T12:52:22Z) - From Variability to Stability: Advancing RecSys Benchmarking Practices [3.3331198926331784]
本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
本研究で導入された2つを含む30ドルのオープンデータセットの多種多様なセットを利用することで、データセット特性がアルゴリズム性能に与える影響を批判的に検証する。
論文 参考訳(メタデータ) (2024-02-15T07:35:52Z) - Routing Arena: A Benchmark Suite for Neural Routing Solvers [8.158770689562672]
本稿では,一貫した評価のシームレスな統合と,機械学習とオペレーション研究の分野で広く普及しているベースラインとベンチマークの提供を提供する,ルーティング問題のためのベンチマークスイートを提案する。
総合的な第1の実験的な評価は、最新のオペレーショナル・リサーチ・ソルバが、車両のルーティング問題に関して、ソリューションの品質と実行効率の観点から、最先端の結果を生成することを示した。
論文 参考訳(メタデータ) (2023-10-06T10:24:33Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural
Language Understanding [89.92513889132825]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。
評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2021-09-27T00:57:30Z) - Robustness Gym: Unifying the NLP Evaluation Landscape [91.80175115162218]
ディープニューラルネットワークは、現実のシステムにデプロイすると脆くなることが多い。
最近の研究は、そのようなモデルの堅牢性をテストすることに重点を置いている。
単純かつ評価可能なツールキットであるRobustness Gymの形で解を提案する。
論文 参考訳(メタデータ) (2021-01-13T02:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。