論文の概要: A Use-Case Specific Dataset for Measuring Dimensions of Responsible Performance in LLM-generated Text
- arxiv url: http://arxiv.org/abs/2510.20782v1
- Date: Thu, 23 Oct 2025 17:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.523945
- Title: A Use-Case Specific Dataset for Measuring Dimensions of Responsible Performance in LLM-generated Text
- Title(参考訳): LLM生成テキストにおける応答性能の次元測定のためのユースケース特化データセット
- Authors: Alicia Sagae, Chia-Jung Lee, Sandeep Avula, Brandon Dang, Vanessa Murdock,
- Abstract要約: 大規模言語モデル(LLM)を評価するために,実世界のアプリケーションによって駆動されるデータセットを提案する。
LLMの品質、正確性、安全性、公平性のギャップを特定するために、データの使い方を示す。
- 参考スコア(独自算出の注目度): 4.102258214636392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current methods for evaluating large language models (LLMs) typically focus on high-level tasks such as text generation, without targeting a particular AI application. This approach is not sufficient for evaluating LLMs for Responsible AI dimensions like fairness, since protected attributes that are highly relevant in one application may be less relevant in another. In this work, we construct a dataset that is driven by a real-world application (generate a plain-text product description, given a list of product features), parameterized by fairness attributes intersected with gendered adjectives and product categories, yielding a rich set of labeled prompts. We show how to use the data to identify quality, veracity, safety, and fairness gaps in LLMs, contributing a proposal for LLM evaluation paired with a concrete resource for the research community.
- Abstract(参考訳): 大規模言語モデル(LLM)を評価する現在の手法は、通常、特定のAIアプリケーションをターゲットにすることなく、テキスト生成のようなハイレベルなタスクに重点を置いている。
このアプローチは、公正性のような責任あるAI次元のLLMを評価するのに十分ではない。
本研究では、実世界のアプリケーションによって駆動されるデータセットを構築し(製品特徴のリストからプレーンテキストの製品記述を生成する)、男女形容詞や製品カテゴリと交差する公平性属性によってパラメータ化され、ラベル付きプロンプトの豊富なセットを生成する。
本研究では, LLMの品質, 妥当性, 安全性, 公平性のギャップを識別するためにデータを利用する方法を示し, 研究コミュニティの具体的資源と組み合わせてLLM評価を提案する。
関連論文リスト
- LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - SAGEval: The frontiers of Satisfactory Agent based NLG Evaluation for reference-free open-ended text [0.848663031844483]
本稿では,参照/グラウンドラベルが存在しない,あるいは十分に利用できない,自然言語生成のためのロバストな評価手法を開発する必要性を明らかにする。
本研究では,LCM評価器のスコアを補正し,複雑なNLG評価シナリオにおいてもラベル付きデータの必要性を低減できることを示す。
論文 参考訳(メタデータ) (2024-11-25T04:07:16Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Large Language Models for Relevance Judgment in Product Search [48.56992980315751]
検索クエリに対する検索および再ランクされたアイテムの高い関連性は、製品検索の成功の土台である。
本稿では,大規模言語モデル(LLM)を活用して,クエリ・イテムペア(QIP)の関連判断を大規模に自動化する手法について述べる。
本研究は,製品検索における関連判断の自動化の分野への直接的な影響を示唆するものである。
論文 参考訳(メタデータ) (2024-06-01T00:52:41Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。