論文の概要: Datasets for Fairness in Language Models: An In-Depth Survey
- arxiv url: http://arxiv.org/abs/2506.23411v2
- Date: Mon, 22 Sep 2025 15:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.394479
- Title: Datasets for Fairness in Language Models: An In-Depth Survey
- Title(参考訳): 言語モデルにおける公平性のためのデータセット: 詳細な調査
- Authors: Jiale Zhang, Zichong Wang, Avash Palikhe, Zhipeng Yin, Wenbin Zhang,
- Abstract要約: 言語モデル研究において最も広く使われている公平性データセットを包括的に分析する。
本稿では,ベンチマークおよびスコアリング指標間での人口格差の一貫したパターンを明らかにする統一評価フレームワークを提案する。
我々の発見は、より広い範囲の社会的文脈と公平性の概念を捉えた新しいベンチマークに対する緊急の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 13.944063655545898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing reliance on fairness benchmarks to evaluate language models, the datasets that underpin these benchmarks remain critically underexamined. This survey addresses that overlooked foundation by offering a comprehensive analysis of the most widely used fairness datasets in language model research. To ground this analysis, we characterize each dataset across key dimensions, including provenance, demographic scope, annotation design, and intended use, revealing the assumptions and limitations baked into current evaluation practices. Building on this foundation, we propose a unified evaluation framework that surfaces consistent patterns of demographic disparities across benchmarks and scoring metrics. Applying this framework to sixteen popular datasets, we uncover overlooked biases that may distort conclusions about model fairness and offer guidance on selecting, combining, and interpreting these resources more effectively and responsibly. Our findings highlight an urgent need for new benchmarks that capture a broader range of social contexts and fairness notions. To support future research, we release all data, code, and results at https://github.com/vanbanTruong/Fairness-in-Large-Language-Models/tree/main/datasets, fostering transparency and reproducibility in the evaluation of language model fairness.
- Abstract(参考訳): 言語モデルを評価するための公平性ベンチマークへの依存度が高まっているにもかかわらず、これらのベンチマークの基盤となるデータセットは、いまだに過小評価されていない。
この調査は、言語モデル研究において最も広く使われているフェアネスデータセットを包括的に分析することで、基礎を見落としていたことに対処する。
この分析を基礎として、各データセットを、証明、人口分布範囲、アノテーション設計、意図された使用を含む主要な範囲で特徴付け、現在の評価慣行に組み込まれた仮定と制限を明らかにする。
本稿では,この基盤を基盤として,ベンチマークと評価指標間の人口格差の一貫したパターンを抽出する統一評価フレームワークを提案する。
このフレームワークを16の一般的なデータセットに適用することで、モデルフェアネスに関する結論を歪めるような見過ごされたバイアスを発見し、これらのリソースをより効果的に、かつ責任を持って選択し、組み合わせ、解釈するためのガイダンスを提供します。
我々の発見は、より広い範囲の社会的文脈と公平性の概念を捉えた新しいベンチマークに対する緊急の必要性を浮き彫りにしている。
将来の研究をサポートするため、私たちはhttps://github.com/vanbanTruong/Fairness-in-Large-Language-Models/tree/main/datasetsですべてのデータ、コード、結果をリリースします。
関連論文リスト
- CALMA: A Process for Deriving Context-aligned Axes for Language Model Alignment [4.732046558763803]
評価とアライメントのための文脈関連軸を抽出するための基礎的,参加的手法であるCALMAを紹介する。
その結果,オープンエンドおよびユースケース駆動プロセスに基づく評価実践の価値が示された。
論文 参考訳(メタデータ) (2025-07-11T22:33:11Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - The Effectiveness of LLMs as Annotators: A Comparative Overview and Empirical Analysis of Direct Representation [5.249002650134171]
大規模言語モデル(LLM)は、さまざまな自然言語タスクやさまざまなアプリケーションドメインにまたがる強力なサポートツールとして登場した。
本稿では,ラベル付けデータにおけるLCMの可能性について,12種類の研究結果の比較検討を行った。
モデルは有望なコストと時間の節約効果を示すが、代表性、偏見、変化を促す感度、英語の好みなど、かなりの制限がある。
論文 参考訳(メタデータ) (2024-05-02T14:00:22Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Beyond Leaderboards: A survey of methods for revealing weaknesses in
Natural Language Inference data and models [6.998536937701312]
近年、表面的な手がかりのために自然言語推論(NLI)データセットを分析する論文が増えている。
この構造化された調査は、モデルとデータセットの報告された弱点を分類することで、進化する研究領域の概要を提供する。
論文 参考訳(メタデータ) (2020-05-29T17:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。