Fugu-MT 論文翻訳(概要): Improving Reproducibility in Evaluation through Multi-Level Annotator Modeling

論文の概要: Improving Reproducibility in Evaluation through Multi-Level Annotator Modeling

arxiv url: http://arxiv.org/abs/2605.13801v1
Date: Wed, 13 May 2026 17:22:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:28.206003
Title: Improving Reproducibility in Evaluation through Multi-Level Annotator Modeling
Title（参考訳）: マルチレベルアノテータモデリングによる評価の再現性向上
Authors: Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan,
Abstract要約: 本稿では,アノテータの動作を現実的にモデル化するためのマルチレベルブートストラップ手法を提案する。統計的意義を達成するために必要なアイテム数(N$)とアイテムあたりのレスポンス数(K$)のトレードオフを分析する。
参考スコア（独自算出の注目度）: 6.372025352636228
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As generative AI models such as large language models (LLMs) become more pervasive, ensuring the safety, robustness, and overall trustworthiness of these systems is paramount. However, AI is currently facing a reproducibility crisis driven by unreliable evaluations and unrepeatable experimental results. While human raters are often used to assess models for utility and safety, they introduce divergent biases and subjective opinions into their annotations. Overcoming this variance is exceptionally challenging because very little data exists to study how experimental repeatability actually improves as the annotator pool grows. Standard evaluation practices typically rely on a small number of annotations per item (often 3 to 5) and lack the persistent rater identifiers necessary to model individual variance across items. In this work, we introduce a multi-level bootstrapping approach to realistically model annotator behavior. Leveraging datasets with a large number of ratings and persistent rater identifiers, we analyze the tradeoffs between the number of items ($N$) and the number of responses per item ($K$) required to achieve statistical significance.
Abstract（参考訳）: 大規模言語モデル(LLM)のような生成AIモデルがより広く普及するにつれて、システムの安全性、堅牢性、全体的な信頼性が最重要である。しかし、AIは現在、信頼性の低い評価と再現不可能な実験結果によって、再現性の危機に直面している。人間のレーダはしばしば実用性と安全性のモデルを評価するのに使用されるが、異なるバイアスと主観的な意見がアノテーションに導入される。なぜなら、アノテータプールが成長するにつれて、実験的な再現性が実際にどのように改善するかを研究するデータはほとんど存在しないからである。標準評価のプラクティスは、通常、アイテムごとに少数のアノテーション(しばしば3から5)に依存し、アイテム間の個人差をモデル化するのに必要なパーシステンスなレーダ識別子が欠如している。本研究では,アノテータの動作を現実的にモデル化するためのマルチレベルブートストラッピング手法を提案する。大量のレーティングと永続的なレーダ識別子を持つデータセットを活用して、統計的意義を達成するために必要なアイテム数(N$)とアイテムあたりのレスポンス数(K$)のトレードオフを分析する。

関連論文リスト

Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-27T10:37:11Z)
Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
How Many Ratings per Item are Necessary for Reliable Significance Testing? [7.422152765037947]
機械学習評価の基盤は、モデルと人間の反応が一元的、権威的、金標準のデータに対するモデルを評価するのに十分な信頼性を持つという仮定である。我々は、(既存のまたは計画された)データセットが、信頼できるヌル仮説の統計的テストを保証するのに十分な応答を持っているかどうかを判断するために、メソッドを適用する。我々の手法は、AI研究者がAI評価のためのデータ収集方法に関するより良い決定を下すのにどのように役立つかを示す。
論文参考訳（メタデータ） (2024-12-04T02:31:28Z)
Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression [4.813376208491175]
Prediction Powered Inference (PPI)フレームワークは、大量の擬似ラベル付きデータと、実際の高品質なラベルを持つ小さなサンプルの両方を活用する方法を提供する。ラベル付きデータが不足すると、PPI++メソッドは古典的推論よりもさらにパフォーマンスが良くなる。本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-19T17:17:46Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。