論文の概要: Changing the World by Changing the Data
- arxiv url: http://arxiv.org/abs/2105.13947v1
- Date: Fri, 28 May 2021 16:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:52:38.406659
- Title: Changing the World by Changing the Data
- Title(参考訳): データを変えることで世界を変える
- Authors: Anna Rogers
- Abstract要約: このポジションペーパーは、データキュレーションの議論と反対の議論をマッピングする。
それは基本的にはムートである、と論じている。キュレーションは、すでに存在し、起こり、世界を変えつつある。
- 参考スコア(独自算出の注目度): 4.974890682815778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP community is currently investing a lot more research and resources into
development of deep learning models than training data. While we have made a
lot of progress, it is now clear that our models learn all kinds of spurious
patterns, social biases, and annotation artifacts. Algorithmic solutions have
so far had limited success. An alternative that is being actively discussed is
more careful design of datasets so as to deliver specific signals. This
position paper maps out the arguments for and against data curation, and argues
that fundamentally the point is moot: curation already is and will be
happening, and it is changing the world. The question is only how much thought
we want to invest into that process.
- Abstract(参考訳): NLPコミュニティは現在、データトレーニングよりもディープラーニングモデルの開発に多くの研究とリソースに投資しています。
私たちは多くの進歩を遂げてきましたが、私たちのモデルがあらゆる種類のスプリアスパターン、社会的バイアス、アノテーションアーティファクトを学習していることは明らかです。
アルゴリズムによるソリューションは、これまでのところ成功は限られている。
積極的に議論されている代替案は、特定の信号を配信するためにデータセットをより注意深く設計することである。
このポジションの論文は、データキュレーションに関する議論と、データキュレーションに対する議論を地図化しており、基本的なポイントはmootであると主張している。
問題は、そのプロセスに投資したいと考えていることだけだ。
関連論文リスト
- TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - The Lean Data Scientist: Recent Advances towards Overcoming the Data
Bottleneck [16.18460753647167]
機械学習(ML)は、ほとんどすべての科学と産業に影響を及ぼし、世界を変えつつある。
最近のアルゴリズムはますますデータに飢えており、トレーニングには大規模なデータセットが必要である。
しかし、そのような規模の高品質なデータセットを取得することは難しい課題である。
論文 参考訳(メタデータ) (2022-11-15T07:44:56Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - A Reflection on Learning from Data: Epistemology Issues and Limitations [1.8047694351309205]
本稿では,データから得られた知識の問題点と限界について考察する。
この論文は、一般的な数学的理論を用いてプロセスを記述する際の欠点について、いくつかの光を当てている。
さらに、データから学ぶことに特化した理論の必要性を強調している。
論文 参考訳(メタデータ) (2021-07-28T11:05:34Z) - Mitigating Temporal-Drift: A Simple Approach to Keep NER Models Crisp [16.960138447997007]
名前付きエンティティ認識のためのニューラルモデルのパフォーマンスは時間とともに劣化し、停滞する。
我々は,ツイートの傾向を直感的に測定する手法を提案し,この指標を用いて,学習に使用する最も有意義なインスタンスを選択する。
提案手法は,代替データよりも少ないトレーニングデータで予測精度が向上し,魅力的な実用的なソリューションとなることを示す。
論文 参考訳(メタデータ) (2021-04-20T03:35:25Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z) - A Survey on Transfer Learning in Natural Language Processing [8.396202730857942]
多くの大規模モデルが出現するにつれて、トランスファーラーニングの需要が高まっている。
本調査では,NLP分野における近年の転写学習の進歩を取り上げる。
論文 参考訳(メタデータ) (2020-05-31T21:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。