Fugu-MT 論文翻訳(概要): Make Every Example Count: On the Stability and Utility of Self-Influence for Learning from Noisy NLP Datasets

論文の概要: Make Every Example Count: On the Stability and Utility of Self-Influence for Learning from Noisy NLP Datasets

arxiv url: http://arxiv.org/abs/2302.13959v2
Date: Tue, 17 Oct 2023 16:03:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 22:30:53.199156
Title: Make Every Example Count: On the Stability and Utility of Self-Influence for Learning from Noisy NLP Datasets
Title（参考訳）: あらゆる例を挙げる:ノイズの多いNLPデータセットから学ぶ自己影響の安定性と実用性について
Authors: Irina Bejan, Artem Sokolov, Katja Filippova
Abstract要約: データクリーニングのためのトレーニング例のタスク非依存自己影響スコアの適合性について検討した。自然発生の異常者を捕獲する効果を解析する。
参考スコア（独自算出の注目度）: 4.142507103595571
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Increasingly larger datasets have become a standard ingredient to advancing the state-of-the-art in NLP. However, data quality might have already become the bottleneck to unlock further gains. Given the diversity and the sizes of modern datasets, standard data filtering is not straight-forward to apply, because of the multifacetedness of the harmful data and elusiveness of filtering rules that would generalize across multiple tasks. We study the fitness of task-agnostic self-influence scores of training examples for data cleaning, analyze their efficacy in capturing naturally occurring outliers, and investigate to what extent self-influence based data cleaning can improve downstream performance in machine translation, question answering and text classification, building up on recent approaches to self-influence calculation and automated curriculum learning.
Abstract（参考訳）: ますます大きなデータセットが、NLPの最先端化の標準となる。しかし、データ品質はすでにさらなる利益を解き放つためのボトルネックになっているかもしれない。現代のデータセットの多様性とサイズを考えると、有害なデータの多面性や、複数のタスクにまたがって一般化されるフィルタリング規則の解明により、標準データフィルタリングは適用に直進的ではない。本研究では,データクリーニングのための訓練例のタスク非依存的自己影響スコアの適合性を調査し,自然発生した異常値の捕捉における効果を分析し,機械翻訳,質問応答,テキスト分類における下流性能をどの程度向上させるかを検討した。

関連論文リスト

SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning [30.34323856102674]
模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。既存のロボットキュレーションアプローチは、高価な手作業によるアノテーションに依存し、粗い粒度でキュレーションを行う。本稿では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
論文参考訳（メタデータ） (2025-05-28T17:45:05Z)
Datasets, Documents, and Repetitions: The Practicalities of Unequal Data Quality [67.67387254989018]
各種計算予算およびデータフィルタリングと復号化によって生成された複数の事前学習データセットにおけるモデル性能について検討する。トレーニングレシピに適切な修正を加えると、最大10エポックのアグレッシブフィルタデータセットを繰り返すことで、複数の計算予算のオーダーで1エポックの10倍のスーパーセットでのトレーニングを上回ります。
論文参考訳（メタデータ） (2025-03-10T21:51:17Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。 3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文参考訳（メタデータ） (2023-11-14T14:10:40Z)
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文参考訳（メタデータ） (2023-09-08T19:34:05Z)
A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文参考訳（メタデータ） (2023-05-22T15:57:53Z)
Self-supervised Activity Representation Learning with Incremental Data: An Empirical Study [7.782045150068569]
本研究では,時系列分類タスクにおける自己教師付き表現学習モデルの利用が及ぼす影響について検討する。 4つの公開データセットにおいて,ラベル付きデータのサイズ,分布,ソースが最終分類性能に与える影響を解析した。
論文参考訳（メタデータ） (2023-05-01T01:39:55Z)
On-the-fly Denoising for Data Augmentation in Natural Language Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文参考訳（メタデータ） (2022-12-20T18:58:33Z)
Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文参考訳（メタデータ） (2021-09-19T18:50:45Z)
Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文参考訳（メタデータ） (2020-12-21T12:25:04Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。