論文の概要: Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems
- arxiv url: http://arxiv.org/abs/2411.15662v1
- Date: Sat, 23 Nov 2024 22:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:45.807966
- Title: Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems
- Title(参考訳): LLMによる表現障害測定における研究と実践のギャップ
- Authors: Emma Harvey, Emily Sheng, Su Lin Blodgett, Alexandra Chouldechova, Jean Garcia-Gathright, Alexandra Olteanu, Hanna Wallach,
- Abstract要約: 本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。
我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
- 参考スコア(独自算出の注目度): 88.35461485731162
- License:
- Abstract: To facilitate the measurement of representational harms caused by large language model (LLM)-based systems, the NLP research community has produced and made publicly available numerous measurement instruments, including tools, datasets, metrics, benchmarks, annotation instructions, and other techniques. However, the research community lacks clarity about whether and to what extent these instruments meet the needs of practitioners tasked with developing and deploying LLM-based systems in the real world, and how these instruments could be improved. Via a series of semi-structured interviews with practitioners in a variety of roles in different organizations, we identify four types of challenges that prevent practitioners from effectively using publicly available instruments for measuring representational harms caused by LLM-based systems: (1) challenges related to using publicly available measurement instruments; (2) challenges related to doing measurement in practice; (3) challenges arising from measurement tasks involving LLM-based systems; and (4) challenges specific to measuring representational harms. Our goal is to advance the development of instruments for measuring representational harms that are well-suited to practitioner needs, thus better facilitating the responsible development and deployment of LLM-based systems.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくシステムによる表現障害の測定を容易にするため、NLP研究コミュニティは、ツール、データセット、メトリクス、ベンチマーク、アノテーション命令、その他の技術を含む、多数の測定機器を開発し、公開している。
しかし、研究コミュニティは、LLMベースのシステムを現実世界で開発・展開する実践者のニーズをどの程度満たすか、どのように改善するかについて、明確さを欠いている。
各種組織における様々な役割における実践者への半構造化インタビューを通じて, LLMに基づくシステムによる表現的害を効果的に測定することを防止する4つの課題を抽出した。(1) 公開されている測定機器の使用に関する課題,(2) 実際に測定することに関わる課題,(3) LLMベースのシステムに関わる測定タスクから生じる課題,(4) 表現的害を計測することに特化した課題である。
我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を推進し、LCMベースのシステムの開発と展開をより容易にすることである。
関連論文リスト
- Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文 参考訳(メタデータ) (2024-11-17T02:35:30Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - A Framework for Automated Measurement of Responsible AI Harms in
Generative AI Applications [15.087045120842207]
大規模言語モデル(LLM)のためのAI(RAI)メトリクスの自動計測のためのフレームワークを提案する。
LLMの害を自動測定するための枠組みは,既存の技術的・社会学的専門知識に基づいて構築されている。
我々は、このフレームワークを使用して、異なるLLMがRAI関連の原則にどのように違反するかを研究するいくつかのケーススタディを実行します。
論文 参考訳(メタデータ) (2023-10-26T19:45:06Z) - Identifying Concerns When Specifying Machine Learning-Enabled Systems: A
Perspective-Based Approach [1.2184324428571227]
PerSpecMLは、ML対応システムを指定するためのパースペクティブベースのアプローチである。
MLや非MLコンポーネントを含むどの属性がシステム全体の品質に寄与するかを、実践者が特定するのに役立つ。
論文 参考訳(メタデータ) (2023-09-14T18:31:16Z) - Auditing large language models: a three-layered approach [0.0]
大規模言語モデル(LLM)は人工知能(AI)研究における大きな進歩を表している。
LLMはまた、重大な倫理的・社会的課題と結びついている。
これまでの研究は、監査を有望なガバナンスメカニズムとして取り上げてきた。
論文 参考訳(メタデータ) (2023-02-16T18:55:21Z) - Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文 参考訳(メタデータ) (2022-12-09T22:10:46Z) - Truthful Meta-Explanations for Local Interpretability of Machine
Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。
本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文 参考訳(メタデータ) (2022-12-07T08:32:04Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。