論文の概要: It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation
- arxiv url: http://arxiv.org/abs/2310.00486v1
- Date: Sat, 30 Sep 2023 20:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:58:23.540786
- Title: It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation
- Title(参考訳): 主観的である必要がある:ゼロショット密度推定によるヒューマンアノテータシミュレーション
- Authors: Wen Wu, Wenlin Chen, Chao Zhang, Philip C. Woodland
- Abstract要約: 人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.8765167340819
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human annotator simulation (HAS) serves as a cost-effective substitute for
human evaluation such as data annotation and system assessment. Human
perception and behaviour during human evaluation exhibit inherent variability
due to diverse cognitive processes and subjective interpretations, which should
be taken into account in modelling to better mimic the way people perceive and
interact with the world. This paper introduces a novel meta-learning framework
that treats HAS as a zero-shot density estimation problem, which incorporates
human variability and allows for the efficient generation of human-like
annotations for unlabelled test inputs. Under this framework, we propose two
new model classes, conditional integer flows and conditional softmax flows, to
account for ordinal and categorical annotations, respectively. The proposed
method is evaluated on three real-world human evaluation tasks and shows
superior capability and efficiency to predict the aggregated behaviours of
human annotators, match the distribution of human annotations, and simulate the
inter-annotator disagreements.
- Abstract(参考訳): 人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間評価中の人間の知覚と行動は、様々な認知過程と主観的解釈によって固有の変動を示し、人々が世界と知覚し相互作用する方法をよりよく模倣するためにモデリングにおいて考慮されるべきである。
本稿では,hasをゼロショット密度推定問題として扱う新しいメタ学習フレームワークを提案する。
この枠組みでは,順序的アノテーションとカテゴリー的アノテーションをそれぞれ考慮し,条件付き整数フローと条件付きソフトマックスフローという2つの新しいモデルクラスを提案する。
提案手法は実世界の3つの人的評価課題に基づいて評価され,人間のアノテーションの集合的挙動を予測し,人間のアノテーションの分布と一致し,アノテーション間の不一致をシミュレートするための優れた能力と効率を示す。
関連論文リスト
- Offline Risk-sensitive RL with Partial Observability to Enhance
Performance in Human-Robot Teaming [1.3980986259786223]
本稿では,モデルの不確実性を取り入れ,リスクに敏感なシーケンシャルな意思決定を可能にする手法を提案する。
シミュレーションロボット遠隔操作環境において,26名の被験者を対象に実験を行った。
論文 参考訳(メタデータ) (2024-02-08T14:27:34Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Dataset Bias in Human Activity Recognition [57.91018542715725]
このコントリビューションは、トレーニングデータを統計的にキュレートし、人間の身体的特性がHARのパフォーマンスにどの程度影響するかを評価する。
時系列HARのセンサ,アクティビティ,記録の異なる2つのHARデータセット上で,最先端の畳み込みニューラルネットワークの性能を評価する。
論文 参考訳(メタデータ) (2023-01-19T12:33:50Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - What I Cannot Predict, I Do Not Understand: A Human-Centered Evaluation
Framework for Explainability Methods [6.232071870655069]
本研究では,実世界のシナリオにおける個人帰属手法の実践的有用性について,説明可能性手法の評価に使用する理論的尺度が不十分であることを示す。
この結果から,より優れた説明可能性手法を開発し,人間中心評価手法を展開させる上で重要な必要性が示唆された。
論文 参考訳(メタデータ) (2021-12-06T18:36:09Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - A Meta-Bayesian Model of Intentional Visual Search [0.0]
本稿では,分類的知覚とササード計画の根底にある神経機構のベイズ的解釈を取り入れたビジュアルサーチの計算モデルを提案する。
擬似行動と人的行動の有意義な比較を可能にするため、参加者は視線に追従する窓から隠蔽されたMNIST桁を分類する必要がある。
本モデルは,観察された人間の行動から主観的パラメータを回収し,高い解釈可能性を維持しながら,分類精度などの人間の行動指標を再カプセル化することができる。
論文 参考訳(メタデータ) (2020-06-05T16:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。