論文の概要: Few-Shot Upsampling for Protest Size Detection
- arxiv url: http://arxiv.org/abs/2105.11260v1
- Date: Mon, 24 May 2021 13:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 19:53:58.306097
- Title: Few-Shot Upsampling for Protest Size Detection
- Title(参考訳): テストサイズ検出のためのFew-Shot Upsampling
- Authors: Andrew Halterman, Benjamin J. Radford
- Abstract要約: 粗い文書ラベルをきめ細かなラベルやスパンにアップサンプリングすることは、社会科学研究において一般的な問題である。
ベンチマークデータセットと、社会的に影響のあるタスクのベースラインを提供します。
我々のルールベースモデルは、当初ゼロショット事前訓練されたトランスフォーマー言語モデルより優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new task and dataset for a common problem in social science
research: "upsampling" coarse document labels to fine-grained labels or spans.
We pose the problem in a question answering format, with the answers providing
the fine-grained labels. We provide a benchmark dataset and baselines on a
socially impactful task: identifying the exact crowd size at protests and
demonstrations in the United States given only order-of-magnitude information
about protest attendance, a very small sample of fine-grained examples, and
English-language news text. We evaluate several baseline models, including
zero-shot results from rule-based and question-answering models, few-shot
models fine-tuned on a small set of documents, and weakly supervised models
using a larger set of coarsely-labeled documents. We find that our rule-based
model initially outperforms a zero-shot pre-trained transformer language model
but that further fine-tuning on a very small subset of 25 examples
substantially improves out-of-sample performance. We also demonstrate a method
for fine-tuning the transformer span on only the coarse labels that performs
similarly to our rule-based approach. This work will contribute to social
scientists' ability to generate data to understand the causes and successes of
collective action.
- Abstract(参考訳): 粗い文書ラベルをきめ細かいラベルやスパンに「アップサンプリング」するという社会科学研究における共通問題に対して,新しいタスクとデータセットを提案する。
質問に答える形式で問題を提起し、回答はきめ細かいラベルを提供する。
米国では抗議デモやデモで、抗議参加者に関する桁違いな情報、非常に細かい例のサンプル、英語のニューステキストのみを収集し、群衆の大きさを正確に特定する。
ルールベースおよび質問応答モデルによるゼロショット結果,少数の文書に微調整された少数ショットモデル,粗ラベル文書のより大きなセットを用いた弱い教師付きモデルなど,いくつかのベースラインモデルを評価した。
我々のルールベースモデルは、当初ゼロショット事前訓練されたトランスフォーマー言語モデルよりも優れているが、25例の非常に小さなサブセットのさらなる微調整は、サンプル外性能を大幅に向上させる。
また,ルールベースアプローチと同様に動作する粗ラベルのみに対して,トランスフォーマースパンを微調整する手法を示す。
この研究は、集団行動の原因と成功を理解するデータを生成する社会科学者の能力に寄与する。
関連論文リスト
- Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Few-Shot Learning with Siamese Networks and Label Tuning [5.006086647446482]
適切な事前トレーニングを行うことで、テキストやラベルを埋め込むSiamese Networksが、競争力のある代替手段となることを示す。
ラベルの埋め込みだけを変えることで、数ショットのセットアップでモデルを適応できる、シンプルで計算効率の良い手法であるラベルチューニングを導入する。
論文 参考訳(メタデータ) (2022-03-28T11:16:46Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Small but Mighty: New Benchmarks for Split and Rephrase [18.959219419951083]
Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。
広く使われているベンチマークデータセットは、簡単に利用できる構文的手がかりを普遍的に含んでいることがわかった。
単純なルールベースモデルであっても,最先端モデルと同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-17T23:37:33Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。