論文の概要: Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort
- arxiv url: http://arxiv.org/abs/2112.11914v1
- Date: Wed, 15 Dec 2021 13:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-26 12:45:41.729112
- Title: Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort
- Title(参考訳): 能動的学習を用いたテキストアノテーションによる品質向上の試み
- Authors: Franziska Weeber and Felix Hamborg and Karsten Donnay and Bela Gipp
- Abstract要約: 研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
- 参考スコア(独自算出の注目度): 9.379650501033465
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large amounts of annotated data have become more important than ever,
especially since the rise of deep learning techniques. However, manual
annotations are costly. We propose a tool that enables researchers to create
large, high-quality, annotated datasets with only a few manual annotations,
thus strongly reducing annotation cost and effort. For this purpose, we combine
an active learning (AL) approach with a pre-trained language model to
semi-automatically identify annotation categories in the given text documents.
To highlight our research direction's potential, we evaluate the approach on
the task of identifying frames in news articles. Our preliminary results show
that employing AL strongly reduces the number of annotations for correct
classification of even these complex and subtle frames. On the framing dataset,
the AL approach needs only 16.3\% of the annotations to reach the same
performance as a model trained on the full dataset.
- Abstract(参考訳): 特にディープラーニング技術の普及以降、大量の注釈付きデータがこれまで以上に重要になっている。
しかし、手動アノテーションはコストがかかる。
研究者は、手動のアノテーションだけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案し、アノテーションのコストと労力を強く削減する。
そこで本研究では,アクティブラーニング(AL)アプローチと事前学習言語モデルを組み合わせて,テキスト文書中のアノテーションカテゴリを半自動同定する。
本研究の方向性を強調するために,ニュース記事中のフレームを識別するタスクにおけるアプローチを評価する。
予備的な結果から,ALを用いると,これらの複雑で微妙なフレームの正確な分類のためのアノテーションの数が大幅に減少することがわかった。
フレーミングデータセットでは、完全なデータセットでトレーニングされたモデルと同じパフォーマンスに達するために、ALアプローチはアノテーションの16.3%しか必要としない。
関連論文リスト
- Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Zero-shot Active Learning Using Self Supervised Learning [11.28415437676582]
我々は,反復的なプロセスを必要としないモデル非依存の新たなアクティブラーニング手法を提案する。
アクティブラーニングの課題に自己指導型学習機能を活用することを目的としている。
論文 参考訳(メタデータ) (2024-01-03T11:49:07Z) - A Self Supervised StyleGAN for Image Annotation and Classification with
Extremely Limited Labels [35.43549147657739]
画像アノテーションと分類のための自己教師型アプローチであるSS-StyleGANを提案する。
提案手法は,50と10の小さなラベル付きデータセットを用いて,強力な分類結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-26T09:46:50Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。