論文の概要: PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity
- arxiv url: http://arxiv.org/abs/2504.05250v1
- Date: Mon, 07 Apr 2025 16:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:47.003365
- Title: PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity
- Title(参考訳): PEAKS:カーネル類似性による予測誤差によるキートレーニング事例の選択
- Authors: Mustafa Burak Gurbuz, Xingyu Zheng, Constantine Dovrolis,
- Abstract要約: インクリメンタルデータ選択(IDS)問題では,サンプルが連続的なストリームとして到着し,完全なデータソースにアクセスせずに選択する必要がある。
IDSに適した効率的なデータ選択法であるPEAKS(Prediction Error Anchored by Kernel similarity)を提案する。
PEAKSが既存の選択戦略を一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 6.6157730528755065
- License:
- Abstract: As deep learning continues to be driven by ever-larger datasets, understanding which examples are most important for generalization has become a critical question. While progress in data selection continues, emerging applications require studying this problem in dynamic contexts. To bridge this gap, we pose the Incremental Data Selection (IDS) problem, where examples arrive as a continuous stream, and need to be selected without access to the full data source. In this setting, the learner must incrementally build a training dataset of predefined size while simultaneously learning the underlying task. We find that in IDS, the impact of a new sample on the model state depends fundamentally on both its geometric relationship in the feature space and its prediction error. Leveraging this insight, we propose PEAKS (Prediction Error Anchored by Kernel Similarity), an efficient data selection method tailored for IDS. Our comprehensive evaluations demonstrate that PEAKS consistently outperforms existing selection strategies. Furthermore, PEAKS yields increasingly better performance returns than random selection as training data size grows on real-world datasets.
- Abstract(参考訳): ディープラーニングはより大規模なデータセットによって推進され続けており、どの例が一般化に最も重要であるかを理解することが重要な問題となっている。
データ選択の進歩は継続するが、新興アプリケーションは動的文脈でこの問題を研究する必要がある。
このギャップを埋めるために、インクリメンタルデータ選択(IDS)問題があり、サンプルが連続的なストリームとして到着し、完全なデータソースにアクセスせずに選択する必要がある。
この設定では、学習者は、基礎となるタスクを同時に学習しながら、予め定義されたサイズのトレーニングデータセットを段階的に構築する必要がある。
IDSでは、新しいサンプルがモデル状態に与える影響は、特徴空間における幾何学的関係と予測誤差の両方に大きく依存している。
この知見を活かして、IDSに適した効率的なデータ選択法であるPEAKS(Prediction Error Anchored by Kernel similarity)を提案する。
PEAKSが既存の選択戦略を一貫して上回ることを示す総合評価を行った。
さらに、PEAKSは、実世界のデータセットでトレーニングデータのサイズが大きくなるにつれて、ランダム選択よりもパフォーマンスのリターンが向上する。
関連論文リスト
- CleanSurvival: Automated data preprocessing for time-to-event models using reinforcement learning [0.0]
データ前処理は、機械学習の重要かつ頻繁に無視される側面である。
CleanSurvivalは、プレプロセスパイプラインを最適化するための強化学習ベースのソリューションである。
連続的および分類的変数を処理し、Q-learningを使用して、データ計算、外れ値検出、特徴抽出のどの組み合わせが最適なパフォーマンスを達成するかを選択できる。
論文 参考訳(メタデータ) (2025-02-06T10:33:37Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Stochastic Gradient Descent with Adaptive Data [4.119418481809095]
勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。
オペレーションリサーチにおけるポリシー最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。
過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。
適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。
論文 参考訳(メタデータ) (2024-10-02T02:58:32Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。