論文の概要: Cost-Efficient Subjective Task Annotation and Modeling through Few-Shot
Annotator Adaptation
- arxiv url: http://arxiv.org/abs/2402.14101v1
- Date: Wed, 21 Feb 2024 19:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:25:02.129025
- Title: Cost-Efficient Subjective Task Annotation and Modeling through Few-Shot
Annotator Adaptation
- Title(参考訳): Few-Shot Annotator Adaptationによるコスト効率の良い主観的タスクアノテーションとモデリング
- Authors: Preni Golazizian, Ali Omrani, Alireza S. Ziabari, Morteza Dehghani
- Abstract要約: 単一の根拠真理が存在しない主観的なNLPタスクでは、多様なアノテータを含めることが重要である。
本稿では,主観的タスクにおけるアノテーション収集とモデリングのための新しいフレームワークを提案する。
本フレームワークはアノテーションの予算を最小化し,各アノテーションに対する予測性能を最大化することを目的としている。
- 参考スコア(独自算出の注目度): 2.229907341974805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In subjective NLP tasks, where a single ground truth does not exist, the
inclusion of diverse annotators becomes crucial as their unique perspectives
significantly influence the annotations. In realistic scenarios, the annotation
budget often becomes the main determinant of the number of perspectives (i.e.,
annotators) included in the data and subsequent modeling. We introduce a novel
framework for annotation collection and modeling in subjective tasks that aims
to minimize the annotation budget while maximizing the predictive performance
for each annotator. Our framework has a two-stage design: first, we rely on a
small set of annotators to build a multitask model, and second, we augment the
model for a new perspective by strategically annotating a few samples per
annotator. To test our framework at scale, we introduce and release a unique
dataset, Moral Foundations Subjective Corpus, of 2000 Reddit posts annotated by
24 annotators for moral sentiment. We demonstrate that our framework surpasses
the previous SOTA in capturing the annotators' individual perspectives with as
little as 25% of the original annotation budget on two datasets. Furthermore,
our framework results in more equitable models, reducing the performance
disparity among annotators.
- Abstract(参考訳): 単元真理が存在しない主観的NLPタスクでは、アノテーションに固有の視点が大きな影響を与えるため、多元的アノテータの含みが重要となる。
現実的なシナリオでは、アノテーションの予算はデータとその後のモデリングに含まれる視点(アノテーション)の数の主要な決定要因となることが多い。
本稿では,各アノテータの予測性能を最大化しつつ,アノテーション予算の最小化を目的とした主観的タスクにおけるアノテーション収集とモデリングのための新しいフレームワークを提案する。
ひとつは、マルチタスクモデルを構築するために、小さなアノテータセットに依存し、もうひとつは、アノテータ毎にいくつかのサンプルを戦略的にアノテートすることで、新しい視点でモデルを拡張することです。
当社のフレームワークを大規模にテストするために、2000年のReddit投稿のユニークなデータセットであるMoral Foundations Subjective Corpusを導入、リリースしました。
2つのデータセットの注釈予算の25%しか持たないアノテータの個々の視点を捉えることで、我々のフレームワークが以前のsotaを上回っていることを実証する。
さらに,本フレームワークは,アノテータ間の性能格差を低減し,より公平なモデルを実現する。
関連論文リスト
- Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Team Triple-Check at Factify 2: Parameter-Efficient Large Foundation
Models with Feature Representations for Multi-Modal Fact Verification [5.552606716659022]
ソーシャルメディアでは、マルチモーダルな事実検証が重要だが難しい問題となっている。
本稿では,細粒度テキストと照明パラメータを用いた入力埋め込みをモデル化するためのPre-CoFactv2フレームワークを提案する。
AAAI 2023のFactifyチャレンジにおいて,Pre-CoFactv2がPre-CoFactを大きなマージンで上回り,新たな最先端の成果を得たことを示す。
論文 参考訳(メタデータ) (2023-02-12T18:08:54Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Disjoint Contrastive Regression Learning for Multi-Sourced Annotations [10.159313152511919]
大規模データセットはディープラーニングモデルの開発に重要である。
複数のアノテータを使用して、データの異なるサブセットをラベル付けすることができる。
異なるアノテータ間の矛盾とバイアスはモデルトレーニングに有害である。
論文 参考訳(メタデータ) (2021-12-31T12:39:04Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - Thematic fit bits: Annotation quality and quantity for event participant
representation [0.0]
セマンティック適合のモデリング(動詞-代名詞合成意味論タスク)は、現在非常に大量のデータを必要とする。
言語的に機械に指示された大きなコーパスでトレーニングされた動詞の適応度をモデル化し、高品質なタガーから出力されたコーパス層に置き換える。
論文 参考訳(メタデータ) (2021-05-13T06:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。