論文の概要: Needle in a Haystack: An Analysis of High-Agreement Workers on MTurk for
Summarization
- arxiv url: http://arxiv.org/abs/2212.10397v3
- Date: Wed, 14 Jun 2023 01:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-06-17 02:44:58.176695
- Title: Needle in a Haystack: An Analysis of High-Agreement Workers on MTurk for
Summarization
- Title(参考訳): 干し草の山に刺さる針--mturkにおける高品位労働者の要約分析
- Authors: Lining Zhang, Simon Mille, Yufang Hou, Daniel Deutsch, Elizabeth
Clark, Yixin Liu, Saad Mahamood, Sebastian Gehrmann, Miruna Clinciu, Khyathi
Chandu, Jo\~ao Sedoc
- Abstract要約: 高品質なアマゾン・メカニカル・トルコ人労働者を2段階のパイプラインで採用する方法について検討する。
評価を行う前に、サブパー労働者のフィルタリングに成功できることが示される。
当社の作業員は、彼らとCloudResearchの作業員の間で強いコンセンサスを示していますが、データのサブセットに関する専門家の判断との整合性は期待通りではありません。
- 参考スコア(独自算出の注目度): 29.2233772700673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To prevent the costly and inefficient use of resources on low-quality
annotations, we want a method for creating a pool of dependable annotators who
can effectively complete difficult tasks, such as evaluating automatic
summarization. Thus, we investigate the recruitment of high-quality Amazon
Mechanical Turk workers via a two-step pipeline. We show that we can
successfully filter out subpar workers before they carry out the evaluations
and obtain high-agreement annotations with similar constraints on resources.
Although our workers demonstrate a strong consensus among themselves and
CloudResearch workers, their alignment with expert judgments on a subset of the
data is not as expected and needs further training in correctness. This paper
still serves as a best practice for the recruitment of qualified annotators in
other challenging annotation tasks.
- Abstract(参考訳): 低品質アノテーションにおけるリソースのコストと非効率的な使用を防止するため、自動要約評価などの困難なタスクを効果的に完了できる信頼可能なアノテータのプールを作成する方法が望まれる。
そこで本研究では,amazon mechanical turk workersの2段階パイプラインによる採用について検討する。
我々は、評価を行う前にサブパーワーカーをフィルタリングし、リソースに類似した制約のある高収差アノテーションを得られることを示す。
当社のワーカーは、自分自身とクラウドリサーチワーカーの間で強いコンセンサスを示していますが、データのサブセットに対する専門家の判断との一致は期待どおりではなく、正確性に関するさらなるトレーニングが必要です。
この論文は、他の困難なアノテーションタスクにおいて、資格アノテータを採用するためのベストプラクティスとして機能する。
関連論文リスト
- CritiQ: Mining Data Quality Criteria from Human Preferences [70.35346554179036]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。
CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。
コード,数学,論理領域において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-26T16:33:41Z) - The Generative AI Paradox on Evaluation: What It Can Solve, It May Not
Evaluate [17.77014177096838]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。
質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (2024-02-09T06:16:08Z) - Auxiliary Learning as an Asymmetric Bargaining Game [50.826710465264505]
補助学習におけるタスクのバランスをとるために,AuxiNashという新しい手法を提案する。
本報告では,主課題の性能に対する貢献に基づいて,タスクの獲得能力を学ぶための効率的な手順について述べる。
複数のマルチタスクベンチマークでAuxiNashを評価し、競合する手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-01-31T09:41:39Z) - Automatic Evaluation of Excavator Operators using Learned Reward
Functions [5.372817906484557]
本稿では,掘削作業者の自動評価のための新しい手法を提案する。
掘削機の内部力学と安全基準を各ステップで考慮し,性能評価を行う。
これらの外部報酬予測モデルを用いて学習したポリシーについて,より安全な解が得られた。
論文 参考訳(メタデータ) (2022-11-15T06:58:00Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - A Dataset on Malicious Paper Bidding in Peer Review [84.68308372858755]
悪意あるレビュアーは、紙の割り当てを非倫理的に操作するために戦略的に入札した。
この問題を緩和するための方法の作成と評価への重要な障害は、悪意ある紙入札に関する公開データの欠如である。
我々は、参加者に正直に、悪意的に入札するよう指示されたモックカンファレンス活動から収集された、新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2022-06-24T20:23:33Z) - Identifying Chinese Opinion Expressions with Extremely-Noisy
Crowdsourcing Annotations [27.149121947087536]
本研究では,非常にノイズの多いクラウドソーシングアノテーションを用いて,中国語の意見表現識別(OEI)を調査し,非常に低コストでデータセットを構築する。
我々は,アノテータ・アダプタモデルを,クラウドアノテータの観点から,すべてのアノテーションをゴールドスタンダードとして扱うことで訓練し,すべてのアノテータの混合である合成専門家を用いてモデルをテストする。
構築したデータセット上でのシミュレーション実験により,クラウドソーシングはOEIにとって極めて有望であることが示された。
論文 参考訳(メタデータ) (2022-04-22T14:08:38Z) - Crowdsourcing with Meta-Workers: A New Way to Save the Budget [50.04836252733443]
我々は,AIに適したタスクの種類をメタラーニングで学習したマシンアノテータであるEmphmeta-workerの概念を紹介した。
一般の群衆労働者とは異なり、メタワーカーは信頼性があり、安定しており、さらに重要なことはタイヤレスで自由である。
論文 参考訳(メタデータ) (2021-11-07T12:40:29Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - Embedding Adaptation is Still Needed for Few-Shot Learning [25.4156194645678]
atgは、追加の人間知識なしにトレーニングおよびテストタスクセットを定義するための原則化されたクラスタリング手法である。
既存のベンチマークよりも容易で、相互に、あるいは難しいタスクセットを生成するためのATGの有効性を実証的に実証する。
グラデーションベースのメソッドは、転送が最も困難であるときに、メトリックベースのタスクを上回ることができます。
論文 参考訳(メタデータ) (2021-04-15T06:00:04Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。