論文の概要: BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models
- arxiv url: http://arxiv.org/abs/2503.24310v1
- Date: Mon, 31 Mar 2025 16:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:10.779128
- Title: BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models
- Title(参考訳): BEATS: 大規模言語モデルのバイアス評価と評価テストスイート
- Authors: Alok Abhishek, Lisa Erickson, Tushar Bandopadhyay,
- Abstract要約: 我々は、大規模言語モデル(LLM)におけるバイアス、倫理、公平性、現実性を評価するための新しいフレームワークBEATSを紹介する。
LLMのバイアスベンチマークを行い、29の異なるメトリクスのパフォーマンスを計測する。
これらの指標は、人口統計学、認知学、社会的偏見、倫理的推論、グループフェアネス、事実に関する誤情報リスクなど、幅広い特徴に及びます。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this research, we introduce BEATS, a novel framework for evaluating Bias, Ethics, Fairness, and Factuality in Large Language Models (LLMs). Building upon the BEATS framework, we present a bias benchmark for LLMs that measure performance across 29 distinct metrics. These metrics span a broad range of characteristics, including demographic, cognitive, and social biases, as well as measures of ethical reasoning, group fairness, and factuality related misinformation risk. These metrics enable a quantitative assessment of the extent to which LLM generated responses may perpetuate societal prejudices that reinforce or expand systemic inequities. To achieve a high score on this benchmark a LLM must show very equitable behavior in their responses, making it a rigorous standard for responsible AI evaluation. Empirical results based on data from our experiment show that, 37.65\% of outputs generated by industry leading models contained some form of bias, highlighting a substantial risk of using these models in critical decision making systems. BEATS framework and benchmark offer a scalable and statistically rigorous methodology to benchmark LLMs, diagnose factors driving biases, and develop mitigation strategies. With the BEATS framework, our goal is to help the development of more socially responsible and ethically aligned AI models.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)におけるバイアス,倫理,公平性,現実性を評価するための新しいフレームワークBEATSを紹介する。
BEATSフレームワークに基づいて、29の異なるメトリクスのパフォーマンスを測定するLCMのバイアスベンチマークを提示します。
これらの指標は、人口統計学、認知学、社会的偏見、倫理的推論、グループフェアネス、事実に関する誤情報リスクなど、幅広い特徴に及びます。
これらの指標は、LLMが生成した応答が、体系的不等式を強化または拡張する社会的偏見を持続させる程度を定量的に評価することができる。
このベンチマークで高いスコアを得るには、LLMは応答に非常に公平な振る舞いを示さなければならない。
実験から得られたデータに基づく実験結果から、業界主導モデルが生成するアウトプットの37.65 %には何らかのバイアスがあり、重要な意思決定システムにこれらのモデルを使用することのかなりのリスクが浮かび上がった。
BEATSフレームワークとベンチマークは、LLMをベンチマークし、バイアスを駆動する因子を診断し、緩和戦略を開発する、スケーラブルで統計的に厳格な方法論を提供する。
BEATSフレームワークでは、より社会的に責任を持ち倫理的に整合したAIモデルの開発を支援することが目標です。
関連論文リスト
- Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。