論文の概要: RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to
Diversify Learning Data Samples
- arxiv url: http://arxiv.org/abs/2304.04137v2
- Date: Wed, 16 Aug 2023 15:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:13:47.858811
- Title: RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to
Diversify Learning Data Samples
- Title(参考訳): RD-DPP: 学習データサンプルを多様化する決定点プロセス
- Authors: Xiwen Chen, Huayu Li, Rahul Amin, Abolfazl Razi
- Abstract要約: 交通映像解析などの実践的な学習タスクでは、利用可能なトレーニングサンプルの数は異なる要因によって制限される。
本稿では,Rate-Distortion(RD)理論に基づくタスク指向の多様性測定手法を提案する。
- 参考スコア(独自算出の注目度): 0.5675520944829118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In some practical learning tasks, such as traffic video analysis, the number
of available training samples is restricted by different factors, such as
limited communication bandwidth and computation power. Determinantal Point
Process (DPP) is a common method for selecting the most diverse samples to
enhance learning quality. However, the number of selected samples is restricted
to the rank of the kernel matrix implied by the dimensionality of data samples.
Secondly, it is not easily customizable to different learning tasks. In this
paper, we propose a new way of measuring task-oriented diversity based on the
Rate-Distortion (RD) theory, appropriate for multi-level classification. To
this end, we establish a fundamental relationship between DPP and RD theory. We
observe that the upper bound of the diversity of data selected by DPP has a
universal trend of $\textit{phase transition}$, which suggests that DPP is
beneficial only at the beginning of sample accumulation. This led to the design
of a bi-modal method, where RD-DPP is used in the first mode to select initial
data samples, then classification inconsistency (as an uncertainty measure) is
used to select the subsequent samples in the second mode. This phase transition
solves the limitation to the rank of the similarity matrix. Applying our method
to six different datasets and five benchmark models suggests that our method
consistently outperforms random selection, DPP-based methods, and alternatives
like uncertainty-based and coreset methods under all sampling budgets, while
exhibiting high generalizability to different learning tasks.
- Abstract(参考訳): トラヒックビデオ解析などの実践的な学習タスクでは、利用可能なトレーニングサンプルの数は、通信帯域幅や計算能力の制限など、さまざまな要因によって制限される。
決定点プロセス(Determinantal Point Process, DPP)は、学習品質を高めるために最も多様なサンプルを選択する一般的な方法である。
しかしながら、選択されたサンプルの数は、データサンプルの次元性によって暗示されるカーネルマトリックスのランクに制限される。
第二に、異なる学習タスクに簡単にカスタマイズできない。
本稿では,マルチレベル分類に適したレートゆらぎ(rd)理論に基づいてタスク指向の多様性を測定する新しい方法を提案する。
この目的のために、DPPとRD理論の基本的な関係を確立する。
DPPが選択したデータの多様性の上限は$\textit{phase transition}$という普遍的な傾向を持ち、DPPはサンプル蓄積の開始時にのみ有用であることを示す。
これにより、RD-DPPを最初のデータサンプルを選択するために第1モードで使用し、続いて第2モードで後のサンプルを選択するために(不確実性尺度として)分類不整合を使用するバイモーダル方式が考案された。
この相転移は類似性行列のランクへの制限を解決する。
提案手法を6つの異なるデータセットと5つのベンチマークモデルに適用することにより,任意のサンプリング予算において,ランダム選択,dppベース手法,および不確実性ベースやコアセット法などの代替手法を一貫して上回り,異なる学習タスクに対して高い一般化性を示すことを示唆する。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Learning on Bandwidth Constrained Multi-Source Data with MIMO-inspired
DPP MAP Inference [0.5675520944829118]
分散ソース間でMAP推論を行うための戦略を提案する。
多様性を最大化する分散サンプル選択問題の下位境界を電力配分問題として扱うことができることを示す。
本手法は,情報源間の生データ交換を必要とせず,軽量な多様性測定を行うための帯域制限フィードバックチャネルである。
論文 参考訳(メタデータ) (2023-06-04T22:16:49Z) - DPP-based Client Selection for Federated Learning with Non-IID Data [97.1195165400568]
本稿では,統合学習(FL)のコミュニケーションボトルネックに対処するクライアント選択(CS)手法を提案する。
まず、FLにおけるCSの効果を分析し、各学習ラウンドにおけるトレーニングデータセットの多様化に参加者を適切に選択することで、FLトレーニングを加速させることができることを示す。
我々は、データプロファイリングと決定点プロセス(DPP)サンプリング技術を活用し、DPPに基づく参加者選択(FL-DP$3$S)によるフェデレートラーニング(Federated Learning)と呼ばれるアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-03-30T13:14:54Z) - Determinantal point processes based on orthogonal polynomials for
sampling minibatches in SGD [0.0]
勾配降下(SGD)は機械学習の基盤である。
デフォルトのミニバッチ構成では、望ましいサイズのサブセットを一様にサンプリングする。
DPPと制御された近似の列が、一様サンプリングよりもバッチサイズで高速に崩壊するばらつきを持つ勾配推定器にどのように影響するかを示す。
論文 参考訳(メタデータ) (2021-12-11T15:09:19Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - Wasserstein Learning of Determinantal Point Processes [14.790452282691252]
本稿では,観測された部分集合からなるモデルとデータ間のワッサーシュタイン距離を最小化する新しいDPP学習手法を提案する。
MLEを用いて学習したDPPと比較して,我々のWasserstein学習アプローチは,生成タスクにおける予測性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2020-11-19T08:30:57Z) - Learning from DPPs via Sampling: Beyond HKPV and symmetry [2.0305676256390934]
行列点過程(DPP)の線形統計量の分布関数を近似する方法を示す。
我々のアプローチはスケーラブルであり、従来の対称カーネルを超えて非常に一般的なDPPに適用できる。
論文 参考訳(メタデータ) (2020-07-08T17:33:45Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。
モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。
モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文 参考訳(メタデータ) (2020-06-12T11:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。