論文の概要: LangFair: A Python Package for Assessing Bias and Fairness in Large Language Model Use Cases
- arxiv url: http://arxiv.org/abs/2501.03112v1
- Date: Mon, 06 Jan 2025 16:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:10:16.743229
- Title: LangFair: A Python Package for Assessing Bias and Fairness in Large Language Model Use Cases
- Title(参考訳): LangFair: 大規模言語モデルユースケースにおけるバイアスと公平性を評価するPythonパッケージ
- Authors: Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik, Viren Bajaj, Zeya Ahmad,
- Abstract要約: LangFairは、LLM実践者に特定のユースケースに関連するバイアスと公平性リスクを評価するためのツールを提供することを目的としている。
このパッケージは、ユースケース固有のプロンプトに対するLLM応答で構成される評価データセットを簡単に生成する機能を提供する。
メトリクスの選択をガイドするために、LangFairは実行可能な決定フレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have been observed to exhibit bias in numerous ways, potentially creating or worsening outcomes for specific groups identified by protected attributes such as sex, race, sexual orientation, or age. To help address this gap, we introduce LangFair, an open-source Python package that aims to equip LLM practitioners with the tools to evaluate bias and fairness risks relevant to their specific use cases. The package offers functionality to easily generate evaluation datasets, comprised of LLM responses to use-case-specific prompts, and subsequently calculate applicable metrics for the practitioner's use case. To guide in metric selection, LangFair offers an actionable decision framework.
- Abstract(参考訳): 大型言語モデル (LLM) は様々な方法で偏見を示し、性別、人種、性的指向、年齢などの保護された属性によって特定された特定のグループに対して、結果を生成または悪化させる可能性がある。
このギャップに対処するために、オープンソースのPythonパッケージであるLangFairを紹介します。LLM実践者に、特定のユースケースに関連するバイアスと公平性リスクを評価するツールを提供することを目的としています。
このパッケージは、ユースケース固有のプロンプトに対するLCM応答で構成された評価データセットを簡単に生成し、実践者のユースケースに適用可能なメトリクスを計算する機能を提供する。
メトリクスの選択をガイドするために、LangFairは実行可能な決定フレームワークを提供する。
関連論文リスト
- An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
本稿では,大規模言語モデルにおけるバイアスと公平性リスクを評価するための実践者のための技術ガイドを提供する。
この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。
レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。
既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文 参考訳(メタデータ) (2024-06-27T01:37:57Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - LangBiTe: A Platform for Testing Bias in Large Language Models [1.9744907811058787]
大規模言語モデル(LLM)は、フォーラム、ウェブサイト、ソーシャルメディア、その他のインターネットソースから抽出された膨大な量のデータに基づいて訓練されている。
LangBiTeを使うことで、開発チームはテストシナリオを調整し、ユーザ定義の倫理的要件に従ってテストケースを自動生成し、実行することが可能になる。
LangBiteは、LLMのバイアス評価と、最初の倫理的要件と得られた洞察の間のエンドツーエンドトレーサビリティを提供する。
論文 参考訳(メタデータ) (2024-04-29T10:02:45Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。