論文の概要: FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.19540v1
- Date: Tue, 25 Mar 2025 10:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:17.447288
- Title: FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models
- Title(参考訳): FLEX:大規模言語モデルにおける公正性のロバスト性評価のためのベンチマーク
- Authors: Dahyun Jung, Seungyoon Lee, Hyeonseok Moon, Chanjun Park, Heuiseok Lim,
- Abstract要約: バイアスを誘発するために構築されたプロンプトに露出しても、大きな言語モデルが公平性を維持することができるかどうかをテストするための新しいベンチマークを導入する。
我々は、潜在的なバイアスを公平性評価に増幅するプロンプトを統合する。
これは安全性と公正性を保証するために、より厳格な評価ベンチマークの必要性を強調している。
- 参考スコア(独自算出の注目度): 7.221774553388335
- License:
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly enhanced interactions between users and models. These advancements concurrently underscore the need for rigorous safety evaluations due to the manifestation of social biases, which can lead to harmful societal impacts. Despite these concerns, existing benchmarks may overlook the intrinsic weaknesses of LLMs, which can generate biased responses even with simple adversarial instructions. To address this critical gap, we introduce a new benchmark, Fairness Benchmark in LLM under Extreme Scenarios (FLEX), designed to test whether LLMs can sustain fairness even when exposed to prompts constructed to induce bias. To thoroughly evaluate the robustness of LLMs, we integrate prompts that amplify potential biases into the fairness assessment. Comparative experiments between FLEX and existing benchmarks demonstrate that traditional evaluations may underestimate the inherent risks in models. This highlights the need for more stringent LLM evaluation benchmarks to guarantee safety and fairness.
- Abstract(参考訳): 近年,Large Language Models (LLM) の進歩により,ユーザとモデル間のインタラクションが大幅に向上している。
これらの進歩は、社会的バイアスの顕在化による厳格な安全性評価の必要性を同時に浮き彫りにして、有害な社会的影響をもたらす可能性がある。
これらの懸念にもかかわらず、既存のベンチマークはLLMの固有の弱点を見逃しかねない。
この致命的なギャップに対処するため,我々は Extreme Scenarios (FLEX) の下で LLM のフェアネスベンチマーク (Fairness Benchmark) という新しいベンチマークを導入する。
LLMの頑健さを徹底的に評価するため,正当性評価に潜在的なバイアスを増幅するプロンプトを統合する。
FLEXと既存のベンチマークの比較実験は、従来の評価がモデル固有のリスクを過小評価していることを示している。
これは安全性と公正性を保証するために、より厳密なLCM評価ベンチマークの必要性を強調している。
関連論文リスト
- Can You Trust LLM Judgments? Reliability of LLM-as-a-Judge [0.3759936323189418]
大規模言語モデル(LLM)はますます強力でユビキタスなものになってきていますが、その性質はアウトプットの信頼性に課題をもたらします。
マクドナルドのオメガを利用したLCM判定の信頼性を厳格に評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-17T03:37:31Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom [19.104850413126066]
大規模言語モデル(LLM)の協調学習のための有望なソリューションとして、フェデレートラーニング(FL)が登場した。
ラベル付きテストセットと類似度に基づくメトリクスに依存する従来の評価手法は、許容できる答えのサブセットのみをカバーする。
我々は、ラベル付きテストセットや外部ツールに依存することなく、下流タスクにおけるLCMの信頼性の高い性能測定を提供するFedEval-LLMを提案する。
論文 参考訳(メタデータ) (2024-04-18T15:46:26Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。