論文の概要: Needle in a Haystack: An Analysis of Finding Qualified Workers on MTurk
for Summarization
- arxiv url: http://arxiv.org/abs/2212.10397v1
- Date: Tue, 20 Dec 2022 16:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:49:58.324849
- Title: Needle in a Haystack: An Analysis of Finding Qualified Workers on MTurk
for Summarization
- Title(参考訳): ヘイスタックの針:要約のためのMTurk上の資格労働者の探索分析
- Authors: Lining Zhang, Jo\~ao Sedoc, Simon Mille, Yufang Hou, Sebastian
Gehrmann, Daniel Deutsch, Elizabeth Clark, Yixin Liu, Miruna Clinciu, Saad
Mahamood, Khyathi Chandu
- Abstract要約: 高品質なMTurk労働者を3段階の資格パイプラインで採用する方法について検討する。
評価を行う前に、悪い労働者のフィルタリングに成功できることが示されています。
本稿では,他の難解なアノテーションタスクにおけるアノテータの採用の基盤として機能する。
- 参考スコア(独自算出の注目度): 29.2233772700673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The acquisition of high-quality human annotations through crowdsourcing
platforms like Amazon Mechanical Turk (MTurk) is more challenging than
expected. The annotation quality might be affected by various aspects like
annotation instructions, Human Intelligence Task (HIT) design, and wages paid
to annotators, etc. To avoid potentially low-quality annotations which could
mislead the evaluation of automatic summarization system outputs, we
investigate the recruitment of high-quality MTurk workers via a three-step
qualification pipeline. We show that we can successfully filter out bad workers
before they carry out the evaluations and obtain high-quality annotations while
optimizing the use of resources. This paper can serve as basis for the
recruitment of qualified annotators in other challenging annotation tasks.
- Abstract(参考訳): Amazon Mechanical Turk(MTurk)のようなクラウドソーシングプラットフォームによる高品質なヒューマンアノテーションの取得は、予想以上に難しい。
アノテーションの品質は、アノテーション命令、ヒューマンインテリジェンスタスク(HIT)設計、アノテータに支払われる賃金など、さまざまな側面に影響される可能性がある。
自動要約システムアウトプットの評価を誤解させる可能性のある低品質のアノテーションを避けるため、3段階の資格パイプラインを通じて高品質なmturkワーカーの採用を検討する。
評価を行う前に悪い労働者をフィルタリングし、リソース使用を最適化しながら高品質なアノテーションを得られることを示す。
本論文は,他の難解なアノテーションタスクにおける有資格注釈者の採用の基礎として機能する。
関連論文リスト
- The Generative AI Paradox on Evaluation: What It Can Solve, It May Not
Evaluate [17.77014177096838]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。
質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (2024-02-09T06:16:08Z) - Auxiliary Learning as an Asymmetric Bargaining Game [50.826710465264505]
補助学習におけるタスクのバランスをとるために,AuxiNashという新しい手法を提案する。
本報告では,主課題の性能に対する貢献に基づいて,タスクの獲得能力を学ぶための効率的な手順について述べる。
複数のマルチタスクベンチマークでAuxiNashを評価し、競合する手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-01-31T09:41:39Z) - Automatic Evaluation of Excavator Operators using Learned Reward
Functions [5.372817906484557]
本稿では,掘削作業者の自動評価のための新しい手法を提案する。
掘削機の内部力学と安全基準を各ステップで考慮し,性能評価を行う。
これらの外部報酬予測モデルを用いて学習したポリシーについて,より安全な解が得られた。
論文 参考訳(メタデータ) (2022-11-15T06:58:00Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - A Dataset on Malicious Paper Bidding in Peer Review [84.68308372858755]
悪意あるレビュアーは、紙の割り当てを非倫理的に操作するために戦略的に入札した。
この問題を緩和するための方法の作成と評価への重要な障害は、悪意ある紙入札に関する公開データの欠如である。
我々は、参加者に正直に、悪意的に入札するよう指示されたモックカンファレンス活動から収集された、新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2022-06-24T20:23:33Z) - Identifying Chinese Opinion Expressions with Extremely-Noisy
Crowdsourcing Annotations [27.149121947087536]
本研究では,非常にノイズの多いクラウドソーシングアノテーションを用いて,中国語の意見表現識別(OEI)を調査し,非常に低コストでデータセットを構築する。
我々は,アノテータ・アダプタモデルを,クラウドアノテータの観点から,すべてのアノテーションをゴールドスタンダードとして扱うことで訓練し,すべてのアノテータの混合である合成専門家を用いてモデルをテストする。
構築したデータセット上でのシミュレーション実験により,クラウドソーシングはOEIにとって極めて有望であることが示された。
論文 参考訳(メタデータ) (2022-04-22T14:08:38Z) - Crowdsourcing with Meta-Workers: A New Way to Save the Budget [50.04836252733443]
我々は,AIに適したタスクの種類をメタラーニングで学習したマシンアノテータであるEmphmeta-workerの概念を紹介した。
一般の群衆労働者とは異なり、メタワーカーは信頼性があり、安定しており、さらに重要なことはタイヤレスで自由である。
論文 参考訳(メタデータ) (2021-11-07T12:40:29Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - Embedding Adaptation is Still Needed for Few-Shot Learning [25.4156194645678]
atgは、追加の人間知識なしにトレーニングおよびテストタスクセットを定義するための原則化されたクラスタリング手法である。
既存のベンチマークよりも容易で、相互に、あるいは難しいタスクセットを生成するためのATGの有効性を実証的に実証する。
グラデーションベースのメソッドは、転送が最も困難であるときに、メトリックベースのタスクを上回ることができます。
論文 参考訳(メタデータ) (2021-04-15T06:00:04Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。