Fugu-MT 論文翻訳(概要): It HAS to be Subjective: Human Annotator Simulation via Zero-shot Density Estimation

論文の概要: It HAS to be Subjective: Human Annotator Simulation via Zero-shot Density Estimation

arxiv url: http://arxiv.org/abs/2310.00486v1
Date: Sat, 30 Sep 2023 20:54:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 03:58:23.540786
Title: It HAS to be Subjective: Human Annotator Simulation via Zero-shot Density Estimation
Title（参考訳）: 主観的である必要がある:ゼロショット密度推定によるヒューマンアノテータシミュレーション
Authors: Wen Wu, Wenlin Chen, Chao Zhang, Philip C. Woodland
Abstract要約: 人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
参考スコア（独自算出の注目度）: 15.8765167340819
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Human annotator simulation (HAS) serves as a cost-effective substitute for human evaluation such as data annotation and system assessment. Human perception and behaviour during human evaluation exhibit inherent variability due to diverse cognitive processes and subjective interpretations, which should be taken into account in modelling to better mimic the way people perceive and interact with the world. This paper introduces a novel meta-learning framework that treats HAS as a zero-shot density estimation problem, which incorporates human variability and allows for the efficient generation of human-like annotations for unlabelled test inputs. Under this framework, we propose two new model classes, conditional integer flows and conditional softmax flows, to account for ordinal and categorical annotations, respectively. The proposed method is evaluated on three real-world human evaluation tasks and shows superior capability and efficiency to predict the aggregated behaviours of human annotators, match the distribution of human annotations, and simulate the inter-annotator disagreements.
Abstract（参考訳）: 人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。人間評価中の人間の知覚と行動は、様々な認知過程と主観的解釈によって固有の変動を示し、人々が世界と知覚し相互作用する方法をよりよく模倣するためにモデリングにおいて考慮されるべきである。本稿では,hasをゼロショット密度推定問題として扱う新しいメタ学習フレームワークを提案する。この枠組みでは,順序的アノテーションとカテゴリー的アノテーションをそれぞれ考慮し,条件付き整数フローと条件付きソフトマックスフローという2つの新しいモデルクラスを提案する。提案手法は実世界の3つの人的評価課題に基づいて評価され,人間のアノテーションの集合的挙動を予測し,人間のアノテーションの分布と一致し,アノテーション間の不一致をシミュレートするための優れた能力と効率を示す。

関連論文リスト

B-RIGHT: Benchmark Re-evaluation for Integrity in Generalized Human-Object Interaction Testing [18.822653709976784]
人間と物体の相互作用(HOI)は人工知能(AI)において不可欠な問題である HICO-DETのような現在のベンチマークは以下の制限に直面している。一般対象インタラクションテスト(B-RIGHT)における統合性のベンチマーク再評価という,新たなクラスバランスデータセットを提案する。
論文参考訳（メタデータ） (2025-01-28T06:04:08Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文参考訳（メタデータ） (2024-10-28T15:33:37Z)
Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文参考訳（メタデータ） (2024-10-03T03:08:29Z)
Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-08-25T06:49:03Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Offline Risk-sensitive RL with Partial Observability to Enhance Performance in Human-Robot Teaming [1.3980986259786223]
本稿では,モデルの不確実性を取り入れ,リスクに敏感なシーケンシャルな意思決定を可能にする手法を提案する。シミュレーションロボット遠隔操作環境において,26名の被験者を対象に実験を行った。
論文参考訳（メタデータ） (2024-02-08T14:27:34Z)
AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文参考訳（メタデータ） (2023-10-03T13:53:08Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-15T11:32:13Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。