論文の概要: Stable Coresets via Posterior Sampling: Aligning Induced and Full Loss Landscapes
- arxiv url: http://arxiv.org/abs/2511.17399v1
- Date: Fri, 21 Nov 2025 17:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.124818
- Title: Stable Coresets via Posterior Sampling: Aligning Induced and Full Loss Landscapes
- Title(参考訳): 後方サンプリングによる安定コアセット:誘導景観と全損失景観の調整
- Authors: Wei-Kai Chang, Rajiv Khanna,
- Abstract要約: Coreset選択は、完全なデータセットのパフォーマンスを近似する、小さな、代表的なデータのサブセットを特定することで、トレーニングを加速することを目的としている。
勾配に基づく手法は、特に限られたデータ予算の下で、強力な理論的基盤と実用的な利益のために際立っている。
本稿では、これらの制約に対処する新しいフレームワークを提案する。まず、後方サンプリングとロスランドスケープの接続を確立し、高データ破損シナリオにおいてもロバストなコアセット選択を可能にする。
- 参考スコア(独自算出の注目度): 7.446140380340418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning models continue to scale, the growing computational demands have amplified the need for effective coreset selection techniques. Coreset selection aims to accelerate training by identifying small, representative subsets of data that approximate the performance of the full dataset. Among various approaches, gradient based methods stand out due to their strong theoretical underpinnings and practical benefits, particularly under limited data budgets. However, these methods face challenges such as naive stochastic gradient descent (SGD) acting as a surprisingly strong baseline and the breakdown of representativeness due to loss curvature mismatches over time. In this work, we propose a novel framework that addresses these limitations. First, we establish a connection between posterior sampling and loss landscapes, enabling robust coreset selection even in high data corruption scenarios. Second, we introduce a smoothed loss function based on posterior sampling onto the model weights, enhancing stability and generalization while maintaining computational efficiency. We also present a novel convergence analysis for our sampling-based coreset selection method. Finally, through extensive experiments, we demonstrate how our approach achieves faster training and enhanced generalization across diverse datasets than the current state of the art.
- Abstract(参考訳): ディープラーニングモデルが拡大を続けるにつれ、計算需要の増大により、効果的なコアセット選択技術の必要性が高まっている。
Coreset選択は、完全なデータセットのパフォーマンスを近似する、小さな、代表的なデータのサブセットを特定することで、トレーニングを加速することを目的としている。
様々なアプローチの中で、勾配に基づく手法は、特に限られたデータ予算の下で、強力な理論的基盤と実践的利益のために際立っている。
しかし、これらの手法は、驚くほど強いベースラインとして振る舞う単純確率勾配降下(SGD)や、時間の経過とともに損失曲率のミスマッチによる代表性の低下といった課題に直面している。
本研究では,これらの制約に対処する新しいフレームワークを提案する。
まず、後方サンプリングとロスランドスケープの接続を確立し、高いデータ破損シナリオにおいてもロバストなコアセット選択を可能にする。
次に,モデル重みへの後続サンプリングに基づくスムーズな損失関数を導入し,計算効率を保ちながら安定性と一般化を向上する。
また,サンプルベースコアセット選択法に対する新しい収束解析を提案する。
最後に、幅広い実験を通じて、我々のアプローチが現在の最先端のデータセットよりも多様なデータセットをまたいだ高速なトレーニングと一般化を実現することを実証する。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Re-Visible Dual-Domain Self-Supervised Deep Unfolding Network for MRI Reconstruction [48.30341580103962]
本稿では、これらの問題に対処するために、新しい再視覚的二重ドメイン自己教師型深層展開ネットワークを提案する。
エンド・ツー・エンドの再構築を実現するために,シャンブルとポック・プロキシ・ポイント・アルゴリズム(DUN-CP-PPA)に基づく深層展開ネットワークを設計する。
高速MRIおよびIXIデータセットを用いて行った実験により,本手法は再建性能において最先端の手法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2025-01-07T12:29:32Z) - Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Adaptive Second Order Coresets for Data-efficient Machine Learning [5.362258158646462]
データセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。
機械学習のためのトレーニング例のサブセットを抽出するために,AdaCoreを提案する。
論文 参考訳(メタデータ) (2022-07-28T05:43:09Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。