論文の概要: Understanding and Meeting Practitioner Needs When Measuring Representational Harms Caused by LLM-Based Systems
- arxiv url: http://arxiv.org/abs/2506.04482v1
- Date: Wed, 04 Jun 2025 22:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.445032
- Title: Understanding and Meeting Practitioner Needs When Measuring Representational Harms Caused by LLM-Based Systems
- Title(参考訳): LLMシステムによる表現障害の測定における実践者の必要性の理解と対応
- Authors: Emma Harvey, Emily Sheng, Su Lin Blodgett, Alexandra Chouldechova, Jean Garcia-Gathright, Alexandra Olteanu, Hanna Wallach,
- Abstract要約: 表象の害を測定するために,一般に利用可能な器具を使用できない場合が多いことが判明した。
楽器は、実践者が測定しようとするものを有意に測定しないため、役に立たない場合もある。
その他の場合では、実践者や制度上の障害のため、楽器の使用は行わない。
- 参考スコア(独自算出の注目度): 88.35461485731162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The NLP research community has made publicly available numerous instruments for measuring representational harms caused by large language model (LLM)-based systems. These instruments have taken the form of datasets, metrics, tools, and more. In this paper, we examine the extent to which such instruments meet the needs of practitioners tasked with evaluating LLM-based systems. Via semi-structured interviews with 12 such practitioners, we find that practitioners are often unable to use publicly available instruments for measuring representational harms. We identify two types of challenges. In some cases, instruments are not useful because they do not meaningfully measure what practitioners seek to measure or are otherwise misaligned with practitioner needs. In other cases, instruments - even useful instruments - are not used by practitioners due to practical and institutional barriers impeding their uptake. Drawing on measurement theory and pragmatic measurement, we provide recommendations for addressing these challenges to better meet practitioner needs.
- Abstract(参考訳): NLP研究コミュニティは、大規模言語モデル(LLM)に基づくシステムによって引き起こされる表現的危害を測定するための多くの機器を公開している。
これらの機器は、データセット、メトリクス、ツールなどの形態を取っている。
本稿では,LSMに基づくシステム評価を行う実践者のニーズを満たす方法を検討する。
このような実践者12人との半構造化インタビューの結果,表象的害を測定するために,公開楽器を使用できない場合が多いことが判明した。
課題は2種類ある。
楽器は、実践者が測定しようとするものを有意に測定したり、そうでなければ実践者のニーズと一致しないため、役に立たない場合もある。
他の場合では、実用的、制度的な障壁が彼らの取り込みを妨げているため、実践者が使用する楽器(有用な楽器さえも)は使用されない。
測定理論と実用的測定に基づいて,これらの課題に対処し,実践者のニーズを満たすためのレコメンデーションを提供する。
関連論文リスト
- ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems [88.35461485731162]
本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。
我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
論文 参考訳(メタデータ) (2024-11-23T22:13:38Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Truthful Meta-Explanations for Local Interpretability of Machine
Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。
本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文 参考訳(メタデータ) (2022-12-07T08:32:04Z) - Undesirable Biases in NLP: Addressing Challenges of Measurement [1.7126708168238125]
我々は,NLPモデルバイアスの問題を心理測定のレンズを用いて議論するための学際的アプローチを提案する。
本研究は, 心理測定, 構成妥当性, 測定ツールの信頼性の2つの中心的な概念について考察する。
我々の目標は、NLP実践者により良いバイアス対策を設計するための方法論ツールを提供することです。
論文 参考訳(メタデータ) (2022-11-24T16:53:18Z) - Exploring How Machine Learning Practitioners (Try To) Use Fairness
Toolkits [35.7895677378462]
業界実践者が既存の公正ツールキットでどのように機能するかについて検討する。
フェアネスツールキットが実践者のニーズに対処するいくつかの機会を特定します。
我々は、将来のオープンソースフェアネスツールキットの設計における意味を強調した。
論文 参考訳(メタデータ) (2022-05-13T23:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。