論文の概要: Modeling Annotator Disagreement with Demographic-Aware Experts and Synthetic Perspectives
- arxiv url: http://arxiv.org/abs/2508.02853v1
- Date: Mon, 04 Aug 2025 19:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.659512
- Title: Modeling Annotator Disagreement with Demographic-Aware Experts and Synthetic Perspectives
- Title(参考訳): 音声認識専門家によるアノテーションの診断のモデル化と合成的視点
- Authors: Yinuo Xu, Veronica Derricks, Allison Earl, David Jurgens,
- Abstract要約: 本稿では、アーキテクチャとデータ中心のイノベーションを通じて、主観的NLPタスクにおけるアノテータの不一致をモデル化するアプローチを提案する。
当社のモデルワークは、アノテータの人口統計に基づくもので、構造化されたグループレベルの変動をよりよく表現することができます。
本稿では,データセット構造に適した戦略を用いて,実データと合成データをブレンドする手法を提案し,評価する。
- 参考スコア(独自算出の注目度): 10.753785813662654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an approach to modeling annotator disagreement in subjective NLP tasks through both architectural and data-centric innovations. Our model, DEM-MoE (Demographic-Aware Mixture of Experts), routes inputs to expert subnetworks based on annotator demographics, enabling it to better represent structured, group-level variation compared to prior models. DEM-MoE consistently performs competitively across demographic groups, and shows especially strong results on datasets with high annotator disagreement. To address sparse demographic coverage, we test whether LLM-generated synthetic annotations via zero-shot persona prompting can be used for data imputation. We show these synthetic judgments align moderately well with human annotations on our data and offer a scalable way to potentially enrich training data. We then propose and evaluate approaches for blending real and synthetic data using strategies tailored to dataset structure. We find that the optimal strategies depend on dataset structure. Together, these contributions improve the representation of diverse perspectives.
- Abstract(参考訳): 本稿では、アーキテクチャとデータ中心のイノベーションを通じて、主観的NLPタスクにおけるアノテータの不一致をモデル化するアプローチを提案する。
我々のモデルであるDEM-MoE(Demographic-Aware Mixture of Experts)は、アノテータの人口統計に基づくエキスパートサブネットに入力をルーティングし、従来のモデルと比較してグループレベルの構造的変動をよりよく表現する。
DEM-MoEは、人口統計群間で一貫して競争力を発揮し、特にアノテータの差が大きいデータセットで強い結果を示す。
人口分布の低さに対処するため,ゼロショットペルソナによる合成アノテーションがデータ計算に有効かどうかを検証した。
これらの合成判断は、私たちのデータ上の人間のアノテーションと適度に一致し、潜在的にトレーニングデータを強化するスケーラブルな方法を提供する。
次に、データセット構造に適した戦略を用いて、実データと合成データをブレンドするためのアプローチを提案し、評価する。
最適な戦略はデータセット構造に依存する。
これらの貢献により、多様な視点の表現が向上する。
関連論文リスト
- Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。
モデル合成アーキテクチャ」という概念の計算的実装を提案する。
我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文 参考訳(メタデータ) (2025-07-16T18:01:03Z) - Comparing Methods for Bias Mitigation in Graph Neural Networks [5.256237513030105]
本稿では,生成人工知能(GenAI)のためのデータ準備において,グラフニューラルネットワーク(GNN)が果たす重要な役割について考察する。
本稿では,データスペーシフィケーション,特徴修正,合成データ拡張という,3つの異なるバイアス緩和手法の比較分析を行った。
論文 参考訳(メタデータ) (2025-03-28T16:18:48Z) - Enhancing Few-Shot Learning with Integrated Data and GAN Model Approaches [35.431340001608476]
本稿では,データ拡張とモデルファインチューニングを融合することで,少数ショット学習を向上するための革新的なアプローチを提案する。
薬物発見、ターゲット認識、悪意のあるトラフィック検出などの分野で、小さなサンプルデータによって引き起こされる課題に対処することを目的としている。
その結果,本研究で開発されたMhERGANアルゴリズムは,数発の学習に極めて有効であることが確認された。
論文 参考訳(メタデータ) (2024-11-25T16:51:11Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Numerical Literals in Link Prediction: A Critical Examination of Models and Datasets [2.5999037208435705]
数値リテラルを組み込んだリンク予測モデルは、既存のベンチマークデータセットに対してわずかに改善されている。
モデルが数値リテラルを使用するのに実際に優れているのか、あるいはグラフ構造を利用するのに優れているのかは、不明である。
本稿では,数値リテラルを組み込んだLPモデルの評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:55:33Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - The Deep Latent Position Topic Model for Clustering and Representation
of Networks with Textual Edges [2.6334900941196087]
Deep-LPTMは、変分グラフ自動エンコーダアプローチに基づくモデルベースのクラスタリング戦略である。
Enron社のメールは分析され、その結果の視覚化が提示される。
論文 参考訳(メタデータ) (2023-04-14T07:01:57Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。