論文の概要: Developing A Framework to Support Human Evaluation of Bias in Generated Free Response Text
- arxiv url: http://arxiv.org/abs/2505.03053v1
- Date: Mon, 05 May 2025 22:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.140878
- Title: Developing A Framework to Support Human Evaluation of Bias in Generated Free Response Text
- Title(参考訳): 生成自由応答テキストにおけるバイアスの人的評価を支援するフレームワークの開発
- Authors: Jennifer Healey, Laurie Byrum, Md Nadeem Akhtar, Surabhi Bhargava, Moumita Sinha,
- Abstract要約: 本稿では,自由テキスト応答のための半自動バイアス評価フレームワークの開発に向けての道程について述べる。
我々は、パイプラインの自動化を支援するバイアスの運用定義と、複数の選択を越えてバイアスを分類する方法論をどのように開発したかについて議論した。
- 参考スコア(独自算出の注目度): 8.41305848182636
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLM evaluation is challenging even the case of base models. In real world deployments, evaluation is further complicated by the interplay of task specific prompts and experiential context. At scale, bias evaluation is often based on short context, fixed choice benchmarks that can be rapidly evaluated, however, these can lose validity when the LLMs' deployed context differs. Large scale human evaluation is often seen as too intractable and costly. Here we present our journey towards developing a semi-automated bias evaluation framework for free text responses that has human insights at its core. We discuss how we developed an operational definition of bias that helped us automate our pipeline and a methodology for classifying bias beyond multiple choice. We additionally comment on how human evaluation helped us uncover problematic templates in a bias benchmark.
- Abstract(参考訳): LLM評価はベースモデルにおいても困難である。
実世界のデプロイメントでは、タスク固有のプロンプトと経験的コンテキストの相互作用により、評価はさらに複雑になる。
大規模では、バイアス評価はしばしば短い文脈、固定された選択ベンチマークに基づいて、迅速に評価できるが、これらはLLMの配置されたコンテキストが異なる場合、有効性が失われる可能性がある。
大規模な人間の評価は、しばしば難しすぎてコストがかかると見なされる。
ここでは、人間の洞察を核とする自由テキスト応答のための半自動バイアス評価フレームワークの開発に向けての道程を述べる。
我々は、パイプラインの自動化を支援するバイアスの運用定義と、複数の選択を越えてバイアスを分類する方法論をどのように開発したかについて議論した。
また、バイアスベンチマークで問題のあるテンプレートを明らかにするのに人的評価がどのように役立ったかについてもコメントします。
関連論文リスト
- Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings [36.449658676568234]
大規模言語モデル(LLM)-as-judgeパラダイムは、モデル出力の安価で信頼性の高い高速な評価要求を満たすために使われてきた。
実世界の文脈評価シナリオにインスパイアされた8つの分割に対して2,000の挑戦的な応答対を持つ判定ベンチマークであるContextualJudgeBenchを提案する。
我々の総合的研究は、文脈情報とその評価基準が最先端モデルにおいても重要な課題であることを示している。
論文 参考訳(メタデータ) (2025-03-19T18:09:19Z) - EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - A Framework for Evaluating LLMs Under Task Indeterminacy [49.298107503257036]
大規模言語モデル(LLM)の評価は、評価コーパスの各項目に対して単一の正しい応答(ゴールドラベル)があると仮定することが多い。
タスク不確定性の下でLLMを評価するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2024-11-21T00:15:44Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - With a Grain of SALT: Are LLMs Fair Across Social Dimensions? [3.5001789247699535]
本稿では,ジェンダー,宗教,人種にまたがるオープンソースのLarge Language Models(LLM)におけるバイアスの系統的分析について述べる。
私たちはSALTデータセットを使用して,General Debate, positioned Debate, Career Advice, Problem Solving, CV Generationという,5つの異なるバイアストリガを組み込んでいます。
以上の結果から, モデル間で一貫した分極が明らかとなり, 組織的に好意的あるいは好ましくない治療を受ける集団が存在する。
論文 参考訳(メタデータ) (2024-10-16T12:22:47Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。