論文の概要: From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2401.13229v1
- Date: Wed, 24 Jan 2024 04:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:15:26.002219
- Title: From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning
- Title(参考訳): ランダムからインフォームドデータ選択へ--人間のアノテーションとマイノリティ学習を最適化する多様性に基づくアプローチ
- Authors: Alexandre Alcoforado, Thomas Palmeira Ferraz, Lucas Hideki Okamura,
Israel Campos Fama, Arnold Moya Lavado, B\'arbara Dias Bueno, Bruno Veloso,
Anna Helena Reali Costa
- Abstract要約: 自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 38.30983556062276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in Natural Language Processing is obtaining annotated data
for supervised learning. An option is the use of crowdsourcing platforms for
data annotation. However, crowdsourcing introduces issues related to the
annotator's experience, consistency, and biases. An alternative is to use
zero-shot methods, which in turn have limitations compared to their few-shot or
fully supervised counterparts. Recent advancements driven by large language
models show potential, but struggle to adapt to specialized domains with
severely limited data. The most common approaches therefore involve the human
itself randomly annotating a set of datapoints to build initial datasets. But
randomly sampling data to be annotated is often inefficient as it ignores the
characteristics of the data and the specific needs of the model. The situation
worsens when working with imbalanced datasets, as random sampling tends to
heavily bias towards the majority classes, leading to excessive annotated data.
To address these issues, this paper contributes an automatic and informed data
selection architecture to build a small dataset for few-shot learning. Our
proposal minimizes the quantity and maximizes diversity of data selected for
human annotation, while improving model performance.
- Abstract(参考訳): 自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
選択肢は、データアノテーションにクラウドソーシングプラットフォームを使用することだ。
しかし、クラウドソーシングはアノテータの経験、一貫性、バイアスに関連する問題を導入している。
別の方法は、ゼロショットメソッドを使用することで、少数のショットや完全に教師されたメソッドと比較して制限がある。
大規模言語モデルによる最近の進歩は潜在的な可能性を示しているが、非常に限られたデータを持つ専門分野への適応に苦慮している。
したがって、最も一般的なアプローチは、初期データセットを構築するために一連のデータポイントにランダムにアノテートする人間自身である。
しかし、アノテートされるデータをランダムにサンプリングすることは、データの特性やモデルの特定のニーズを無視しているため、しばしば非効率である。
不均衡なデータセットを扱う場合、ランダムサンプリングは多数派クラスに偏りが強く、過剰な注釈付きデータが発生するため、状況は悪化する。
この問題に対処するため,本論文では,少量学習のための小さなデータセットを構築するための,自動的かつインフォームドなデータ選択アーキテクチャを提案する。
提案手法は,人間のアノテーションに選択したデータの量を最小限にし,その多様性を最大化し,モデル性能を向上させる。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Zero-shot meta-learning for small-scale data from human subjects [10.320654885121346]
我々は,サンプル外テストデータに対する限られたトレーニングデータを用いて,新しい予測タスクに迅速に適応するフレームワークを開発した。
本モデルでは, 介入による遅延処理効果を学習し, 設計上はマルチタスク予測を自然に処理できる。
我々のモデルは、より広い人口への小型人間研究の一般化を向上するために重要である。
論文 参考訳(メタデータ) (2022-03-29T17:42:04Z) - Certifying Robustness to Programmable Data Bias in Decision Trees [12.060443368097102]
学習者が生成したモデルは、潜在的なデータセットバイアスに対してポイントワイズで損なわれていることを証明します。
このアプローチでは,さまざまな次元にまたがるバイアスモデルを指定することが可能です。
フェアネス文献でよく用いられるデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-10-08T20:15:17Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。