論文の概要: Data Summarization via Bilevel Optimization
- arxiv url: http://arxiv.org/abs/2109.12534v1
- Date: Sun, 26 Sep 2021 09:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:52:35.468520
- Title: Data Summarization via Bilevel Optimization
- Title(参考訳): バイレベル最適化によるデータ要約
- Authors: Zal\'an Borsos, Mojm\'ir Mutn\'y, Marco Tagliasacchi and Andreas
Krause
- Abstract要約: シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.89977988203108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing availability of massive data sets poses a series of challenges
for machine learning. Prominent among these is the need to learn models under
hardware or human resource constraints. In such resource-constrained settings,
a simple yet powerful approach is to operate on small subsets of the data.
Coresets are weighted subsets of the data that provide approximation guarantees
for the optimization objective. However, existing coreset constructions are
highly model-specific and are limited to simple models such as linear
regression, logistic regression, and $k$-means. In this work, we propose a
generic coreset construction framework that formulates the coreset selection as
a cardinality-constrained bilevel optimization problem. In contrast to existing
approaches, our framework does not require model-specific adaptations and
applies to any twice differentiable model, including neural networks. We show
the effectiveness of our framework for a wide range of models in various
settings, including training non-convex models online and batch active
learning.
- Abstract(参考訳): 膨大なデータセットが利用可能になるにつれ、機械学習にはさまざまな課題が伴う。
中でも顕著なのは、ハードウェアや人的リソースの制約の下でモデルを学ぶ必要があることだ。
このようなリソース制約のある設定では、シンプルで強力なアプローチはデータの小さなサブセットを操作することです。
coresetはデータの重み付きサブセットであり、最適化目標に対する近似保証を提供する。
しかし、既存のコアセットの構成は非常にモデル固有であり、線形回帰、ロジスティック回帰、および$k$-meansのような単純なモデルに限られる。
本研究では,コアセット選択を基数制約付き二レベル最適化問題として定式化する汎用コアセット構築フレームワークを提案する。
既存のアプローチとは対照的に、我々のフレームワークはモデル固有の適応を必要としない。
オンラインの非凸モデルのトレーニングやバッチアクティブラーニングなど,さまざまな環境での多種多様なモデルに対するフレームワークの有効性を示す。
関連論文リスト
- A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Balancing Constraints and Submodularity in Data Subset Selection [43.03720397062461]
より少ないトレーニングデータを用いて、従来のディープラーニングモデルと同様の精度が得られることを示す。
新たな多様性駆動客観的関数を提案し,マトロイドを用いたクラスラベルと決定境界の制約のバランスをとる。
論文 参考訳(メタデータ) (2021-04-26T19:22:27Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Coresets via Bilevel Optimization for Continual Learning and Streaming [86.67190358712064]
濃度制約付き二レベル最適化による新しいコアセット構成を提案する。
我々のフレームワークがディープニューラルネットワークのコアセットを効率的に生成できることを示し、連続学習やストリーミング設定における経験的メリットを示す。
論文 参考訳(メタデータ) (2020-06-06T14:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。