論文の概要: Corpus Considerations for Annotator Modeling and Scaling
- arxiv url: http://arxiv.org/abs/2404.02340v1
- Date: Tue, 2 Apr 2024 22:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:09:09.817454
- Title: Corpus Considerations for Annotator Modeling and Scaling
- Title(参考訳): アノテーションモデリングとスケーリングのためのコーパス考察
- Authors: Olufunke O. Sarumi, Béla Neuendorf, Joan Plepi, Lucie Flek, Jörg Schlötterer, Charles Welch,
- Abstract要約: 一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
- 参考スコア(独自算出の注目度): 9.263562546969695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent trends in natural language processing research and annotation tasks affirm a paradigm shift from the traditional reliance on a single ground truth to a focus on individual perspectives, particularly in subjective tasks. In scenarios where annotation tasks are meant to encompass diversity, models that solely rely on the majority class labels may inadvertently disregard valuable minority perspectives. This oversight could result in the omission of crucial information and, in a broader context, risk disrupting the balance within larger ecosystems. As the landscape of annotator modeling unfolds with diverse representation techniques, it becomes imperative to investigate their effectiveness with the fine-grained features of the datasets in view. This study systematically explores various annotator modeling techniques and compares their performance across seven corpora. From our findings, we show that the commonly used user token model consistently outperforms more complex models. We introduce a composite embedding approach and show distinct differences in which model performs best as a function of the agreement with a given dataset. Our findings shed light on the relationship between corpus statistics and annotator modeling performance, which informs future work on corpus construction and perspectivist NLP.
- Abstract(参考訳): 自然言語処理研究やアノテーションタスクの最近の傾向は、従来の1つの根拠の真理への依存から、特に主観的なタスクにおける個々の視点への焦点へのパラダイムシフトを裏付けている。
アノテーションタスクが多様性を包含することを意図したシナリオでは、大多数のクラスラベルにのみ依存するモデルは、必然的に貴重なマイノリティの観点を無視します。
この監視は、重要な情報の欠落を招き、より広い文脈で、より大きな生態系内のバランスを乱すリスクを負う可能性がある。
アノテーションモデリングのランドスケープは多様な表現技法で展開されるので、その効果を、ビュー内のデータセットのきめ細かい特徴で調べることが不可欠になる。
本研究では,様々なアノテータモデリング手法を体系的に検討し,その性能を7つのコーパスで比較する。
以上の結果から,一般的に使用されているユーザトークンモデルは,より複雑なモデルよりも一貫して優れていることがわかった。
合成埋め込み手法を導入し,モデルが与えられたデータセットとの整合の関数として最もよく機能する相違点を示す。
本研究は,コーパスの統計値とアノテータのモデリング性能の関係を考察し,コーパス構築とパースペクティビストNLPに関する今後の研究を報告する。
関連論文リスト
- Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文 参考訳(メタデータ) (2021-10-06T08:42:09Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Evaluating the Interpretability of Generative Models by Interactive
Reconstruction [30.441247705313575]
生成モデル表現の人間解釈可能性の定量化を課題とする。
このタスクのパフォーマンスは、ベースラインアプローチよりも、絡み合ったモデルと絡み合ったモデルをはるかに確実に区別する。
論文 参考訳(メタデータ) (2021-02-02T02:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。