論文の概要: Prioritizing Informative Features and Examples for Deep Learning from Noisy Data
- arxiv url: http://arxiv.org/abs/2403.00013v2
- Date: Mon, 12 Aug 2024 00:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:48:12.752177
- Title: Prioritizing Informative Features and Examples for Deep Learning from Noisy Data
- Title(参考訳): 雑音データからの深層学習におけるインフォーマティブな特徴と例の優先順位付け
- Authors: Dongmin Park,
- Abstract要約: 本稿では,開発プロセスの各段階を強化するために,情報的特徴や事例を優先するシステムフレームワークを提案する。
まず,目的課題の解決に固有の情報的特徴のみを,補助的なアウト・オブ・ディストリビューションデータを用いて抽出する手法を提案する。
次に、能動学習のラベル付けコストを削減するために、ラベルなしノイズデータから情報的サンプルを優先する手法を提案する。
- 参考スコア(独自算出の注目度): 4.741012804505562
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this dissertation, we propose a systemic framework that prioritizes informative features and examples to enhance each stage of the development process. Specifically, we prioritize informative features and examples and improve the performance of feature learning, data labeling, and data selection. We first propose an approach to extract only informative features that are inherent to solving a target task by using auxiliary out-of-distribution data. We deactivate the noise features in the target distribution by using that in the out-of-distribution data. Next, we introduce an approach that prioritizes informative examples from unlabeled noisy data in order to reduce the labeling cost of active learning. In order to solve the purity-information dilemma, where an attempt to select informative examples induces the selection of many noisy examples, we propose a meta-model that finds the best balance between purity and informativeness. Lastly, we suggest an approach that prioritizes informative examples from labeled noisy data to preserve the performance of data selection. For labeled image noise data, we propose a data selection method that considers the confidence of neighboring samples to maintain the performance of the state-of-the-art Re-labeling models. For labeled text noise data, we present an instruction selection method that takes diversity into account for ranking the quality of instructions with prompting, thereby enhancing the performance of aligned large language models. Overall, our unified framework induces the deep learning development process robust to noisy data, thereby effectively mitigating noisy features and examples in real-world applications.
- Abstract(参考訳): 本論文では,開発プロセスの各段階を強化するために,情報的特徴や事例を優先するシステム的枠組みを提案する。
具体的には、情報的特徴と例を優先し、特徴学習、データラベリング、データ選択の性能を向上させる。
まず,目的課題の解決に固有の情報的特徴のみを,補助的なアウト・オブ・ディストリビューションデータを用いて抽出する手法を提案する。
分布外データを用いて,対象分布の雑音特性を非活性化する。
次に、能動学習のラベル付けコストを削減するために、ラベルなしノイズデータから情報的サンプルを優先する手法を提案する。
情報化事例の選択を試み,ノイズの多い事例の選択を誘導する純度情報ジレンマを解決するために,純度と情報化のバランスを最も良くするメタモデルを提案する。
最後に、ラベル付きノイズデータから情報的サンプルを優先して、データ選択の性能を維持するアプローチを提案する。
ラベル付き画像ノイズデータに対しては,近隣サンプルの信頼度を考慮したデータ選択手法を提案する。
ラベル付きテキストノイズデータに対して、命令の質をプロンプトでランク付けすることを考慮して、多様性を考慮した命令選択手法を提案する。
全体として、我々の統合されたフレームワークは、ノイズの多いデータに対して堅牢なディープラーニング開発プロセスを誘導し、現実のアプリケーションにおけるノイズの多い特徴や例を効果的に軽減します。
関連論文リスト
- One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Learning to Abstain From Uninformative Data [20.132146513548843]
本研究では,一般的なノイズ発生過程下での学習と行動の問題について検討する。
この問題において、データ分布はラベルに高ノイズの非形式的なサンプルのかなりの割合を有する。
本稿では,選択学習理論に着想を得た損失を生かして,これらの条件下での学習に新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-25T15:55:55Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。