論文の概要: Adaptive Data Selection for Multi-Layer Perceptron Training: A Sub-linear Value-Driven Method
- arxiv url: http://arxiv.org/abs/2510.21286v1
- Date: Fri, 24 Oct 2025 09:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.407479
- Title: Adaptive Data Selection for Multi-Layer Perceptron Training: A Sub-linear Value-Driven Method
- Title(参考訳): 多層パーセプトロントレーニングのための適応的データ選択:サブ線形値駆動手法
- Authors: Xiyang Zhang, Chen Liang, Haoxuan Qiu, Hongzhi Wang,
- Abstract要約: データ選択は、ニューラルネットワークトレーニングの基本的な問題のひとつだ。
Data Value Contributionは、トレーニング用のデータを選択するための、新しい予算対応の方法である。
我々の手法は、様々な予算制約の下で、既存のアプローチよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 10.014138113199616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data selection is one of the fundamental problems in neural network training, particularly for multi-layer perceptrons (MLPs) where identifying the most valuable training samples from massive, multi-source, and heterogeneous data sources under budget constraints poses significant challenges. Existing data selection methods, including coreset construction, data Shapley values, and influence functions, suffer from critical limitations: they oversimplify nonlinear transformations, ignore informative intermediate representations in hidden layers, or fail to scale to larger MLPs due to high computational complexity. In response, we propose DVC (Data Value Contribution), a novel budget-aware method for evaluating and selecting data for MLP training that accounts for the dynamic evolution of network parameters during training. The DVC method decomposes data contribution into Layer Value Contribution (LVC) and Global Value Contribution (GVC), employing six carefully designed metrics and corresponding efficient algorithms to capture data characteristics across three dimensions--quality, relevance, and distributional diversity--at different granularities. DVC integrates these assessments with an Upper Confidence Bound (UCB) algorithm for adaptive source selection that balances exploration and exploitation. Extensive experiments across six datasets and eight baselines demonstrate that our method consistently outperforms existing approaches under various budget constraints, achieving superior accuracy and F1 scores. Our approach represents the first systematic treatment of hierarchical data evaluation for neural networks, providing both theoretical guarantees and practical advantages for large-scale machine learning systems.
- Abstract(参考訳): データ選択は、特に多層パーセプトロン(MLP)において、予算制約下での大規模、複数ソース、異種データソースから最も価値のあるトレーニングサンプルを特定するという、ニューラルネットワークトレーニングの基本的な問題の1つである。
コアセットの構成、データの共有値、影響関数を含む既存のデータ選択方法は、非線形変換を単純化し、隠された層における情報的中間表現を無視したり、高い計算複雑性のためにより大きなMLPにスケールできないといった、重大な制限に悩まされている。
DVC(Data Value Contribution)は、トレーニング中のネットワークパラメータの動的進化を考慮に入れた、MLPトレーニングのためのデータの評価と選択のための新しい予算対応手法である。
DVC法は,データコントリビューションをレイヤバリューコントリビューション(Layer Value Contribution, LVC)とグローバルバリューコントリビューション(GVC)に分解する。
DVCはこれらの評価を、探索と利用のバランスをとる適応的なソース選択のためのアッパー信頼境界(UCB)アルゴリズムと統合する。
6つのデータセットと8つのベースラインにわたる大規模な実験により、我々の手法は、様々な予算制約の下で既存のアプローチを一貫して上回り、精度とF1スコアを達成できることを示した。
提案手法は,ニューラルネットワークの階層的データ評価に関する最初の体系的処理であり,大規模機械学習システムにおいて理論的保証と実用的優位性を提供する。
関連論文リスト
- Oversampling and Downsampling with Core-Boundary Awareness: A Data Quality-Driven Approach [2.334306891078381]
本稿では,2種類のデータを系統的に識別し,識別する手法を提案する。
高品質な意思決定関連データを優先順位付けすることで、私たちのアプローチはテキスト、マルチモーダル、そして自己教師型学習シナリオにまで拡張できます。
この研究は、データ効率の学習における将来の研究の道を開いた。
論文 参考訳(メタデータ) (2025-09-24T07:55:07Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Federated Online Learning for Heterogeneous Multisource Streaming Data [0.0]
フェデレートラーニングは、プライバシの懸念の下で分散マルチソースデータ分析に不可欠なパラダイムとして登場した。
本稿では,分散マルチソースストリーミングデータ解析のためのFOL手法を提案する。
論文 参考訳(メタデータ) (2025-08-08T19:08:53Z) - Selective Embedding for Deep Learning [0.4499833362998489]
ディープラーニングアルゴリズムは入力データに敏感であり、非定常条件下では性能が劣化することが多い。
本研究では,1つの入力チャネル内の複数のソースから短いセグメントのデータを交換する,新しいデータロード戦略である選択的埋め込みを導入する。
論文 参考訳(メタデータ) (2025-07-16T15:45:01Z) - DACL-RAG: Data Augmentation Strategy with Curriculum Learning for Retrieval-Augmented Generation [54.26665681604041]
DACL-RAGは多段階データ拡張戦略と多段階学習パラダイムを組み合わせた多段階RAGトレーニングフレームワークである。
我々のフレームワークは、4つのオープンドメインQAデータセットで一貫した有効性を示し、複数の高度なメソッドに対して2%から4%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-15T16:53:04Z) - Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data [35.431340001608476]
従来のデータマイニング手法は、大規模で高次元で複雑なデータに直面すると不十分である。
本研究では,ラベルのないデータを利用するアルゴリズムの能力向上を目的とした,半教師付き学習手法を提案する。
具体的には、自己学習法を採用し、画像の特徴抽出と分類のための畳み込みニューラルネットワーク(CNN)と組み合わせる。
論文 参考訳(メタデータ) (2024-11-27T18:59:50Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。