Fugu-MT 論文翻訳(概要): RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to Diversify Learning Data Samples

論文の概要: RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to Diversify Learning Data Samples

arxiv url: http://arxiv.org/abs/2304.04137v1
Date: Sun, 9 Apr 2023 02:22:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-11 17:40:23.711996
Title: RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to Diversify Learning Data Samples
Title（参考訳）: RD-DPP: 学習データサンプルを多様化する決定点プロセス
Authors: Xiwen Chen, Huayu Li, Rahul Amin, Abolfazl Razi
Abstract要約: 交通映像解析などの実践的な学習タスクでは、利用可能なトレーニングサンプルの数は異なる要因によって制限される。多様なサンプルを選択するための一般的なアプローチはDPP (Determinantal Point Process) である。本稿では,Rate-Distortion(RD)理論に基づくタスク指向の多様性測定手法を提案する。
参考スコア（独自算出の注目度）: 1.815548369680758
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In some practical learning tasks, such as traffic video analysis, the number of available training samples is restricted by different factors, such as limited communication bandwidth and computation power; therefore, it is imperative to select diverse data samples that contribute the most to the quality of the learning system. One popular approach to selecting diverse samples is Determinantal Point Process (DPP). However, it suffers from a few known drawbacks, such as restriction of the number of samples to the rank of the similarity matrix, and not being customizable for specific learning tasks (e.g., multi-level classification tasks). In this paper, we propose a new way of measuring task-oriented diversity based on the Rate-Distortion (RD) theory, appropriate for multi-level classification. To this end, we establish a fundamental relationship between DPP and RD theory, which led to designing RD-DPP, an RD-based value function to evaluate the diversity gain of data samples. We also observe that the upper bound of the diversity of data selected by DPP has a universal trend of phase transition that quickly approaches its maximum point, then slowly converges to its final limits, meaning that DPP is beneficial only at the beginning of sample accumulation. We use this fact to design a bi-modal approach for sequential data selection.
Abstract（参考訳）: 交通映像解析などの実践的な学習タスクでは、利用可能なトレーニングサンプルの数は、通信帯域幅や計算能力の制限など、さまざまな要因によって制限されるため、学習システムの品質に最も寄与する多様なデータサンプルを選択することが不可欠である。多様なサンプルを選択するための一般的なアプローチはDPP(Determinantal Point Process)である。しかし、サンプルの数を類似度行列のランクに制限したり、特定の学習タスク(例えば、マルチレベル分類タスク)にカスタマイズできないといった、いくつかの既知の欠点に悩まされている。本稿では,マルチレベル分類に適したレートゆらぎ(rd)理論に基づいてタスク指向の多様性を測定する新しい方法を提案する。この目的のために、DPPとRD理論の基本的な関係を確立し、RDに基づく値関数RD-DPPを設計し、データサンプルの多様性向上を評価する。また、dppが選択したデータの多様性の上限が位相遷移の普遍的な傾向を示し、その最大点に素早く接近し、最終的に緩やかに収束し、サンプル蓄積の開始時にのみdppが有益であることを示す。私たちはこの事実を,シーケンシャルなデータ選択のためのバイモーダルアプローチの設計に使用します。

関連論文リスト

Rethinking Representativeness and Diversity in Dynamic Data Selection [32.400383488290906]
動的データ選択は、精度を維持しながらデータセットの変動するサブセットをサンプリングすることで、トレーニングを加速する。サンプル評価の基礎となる2つの基本概念、代表性と多様性を再考する。本手法は2倍以上のトレーニングアクセラレーションと完全データ精度を一致または超える。
論文参考訳（メタデータ） (2026-03-05T09:21:58Z)
Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning [35.359482937263145]
そこで本研究では,学習促進のための雑音対応を高精度かつ効率的に識別するDISSect法を提案する。具体的には,雑音対応がコントラスト学習に与える影響を再考し,現在のモデルと過去のモデルとの相関関係の差が,サンプル品質の特徴づけに有益であることを示す。
論文参考訳（メタデータ） (2025-07-17T11:13:44Z)
Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。 RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:33:11Z)
Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。 DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。 10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-20T01:34:13Z)
Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。 DivBS(Diversified Batch Selection)を提案する。
論文参考訳（メタデータ） (2024-06-07T12:12:20Z)
D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文参考訳（メタデータ） (2023-10-11T23:01:29Z)
Learning on Bandwidth Constrained Multi-Source Data with MIMO-inspired DPP MAP Inference [0.5675520944829118]
分散ソース間でMAP推論を行うための戦略を提案する。多様性を最大化する分散サンプル選択問題の下位境界を電力配分問題として扱うことができることを示す。本手法は,情報源間の生データ交換を必要とせず,軽量な多様性測定を行うための帯域制限フィードバックチャネルである。
論文参考訳（メタデータ） (2023-06-04T22:16:49Z)
DPP-based Client Selection for Federated Learning with Non-IID Data [97.1195165400568]
本稿では,統合学習(FL)のコミュニケーションボトルネックに対処するクライアント選択(CS)手法を提案する。まず、FLにおけるCSの効果を分析し、各学習ラウンドにおけるトレーニングデータセットの多様化に参加者を適切に選択することで、FLトレーニングを加速させることができることを示す。我々は、データプロファイリングと決定点プロセス(DPP)サンプリング技術を活用し、DPPに基づく参加者選択(FL-DP$3$S)によるフェデレートラーニング(Federated Learning)と呼ばれるアルゴリズムを開発する。
論文参考訳（メタデータ） (2023-03-30T13:14:54Z)
Determinantal point processes based on orthogonal polynomials for sampling minibatches in SGD [0.0]
勾配降下(SGD)は機械学習の基盤である。デフォルトのミニバッチ構成では、望ましいサイズのサブセットを一様にサンプリングする。 DPPと制御された近似の列が、一様サンプリングよりもバッチサイズで高速に崩壊するばらつきを持つ勾配推定器にどのように影響するかを示す。
論文参考訳（メタデータ） (2021-12-11T15:09:19Z)
SelectAugment: Hierarchical Deterministic Sample Selection for Data Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文参考訳（メタデータ） (2021-12-06T08:38:38Z)
Wasserstein Learning of Determinantal Point Processes [14.790452282691252]
本稿では,観測された部分集合からなるモデルとデータ間のワッサーシュタイン距離を最小化する新しいDPP学習手法を提案する。 MLEを用いて学習したDPPと比較して,我々のWasserstein学習アプローチは,生成タスクにおける予測性能を著しく向上させることを示した。
論文参考訳（メタデータ） (2020-11-19T08:30:57Z)
Learning from DPPs via Sampling: Beyond HKPV and symmetry [2.0305676256390934]
行列点過程(DPP)の線形統計量の分布関数を近似する方法を示す。我々のアプローチはスケーラブルであり、従来の対称カーネルを超えて非常に一般的なDPPに適用できる。
論文参考訳（メタデータ） (2020-07-08T17:33:45Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)
Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文参考訳（メタデータ） (2020-06-12T11:46:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。