論文の概要: Datasets for Fairness in Language Models: An In-Depth Survey
- arxiv url: http://arxiv.org/abs/2506.23411v1
- Date: Sun, 29 Jun 2025 22:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.86337
- Title: Datasets for Fairness in Language Models: An In-Depth Survey
- Title(参考訳): 言語モデルにおける公平性のためのデータセット: 詳細な調査
- Authors: Jiale Zhang, Zichong Wang, Avash Palikhe, Zhipeng Yin, Wenbin Zhang,
- Abstract要約: 本調査では,現在の言語モデル研究において,最も広く用いられている公平性データセットについて検討する。
我々は、データセットとスコアリングメソッド間の人口格差の一貫したパターンを明らかにする統一評価フレームワークを導入する。
モデルフェアネスに関する結論に影響を与えることがしばしば見過ごされるバイアスを強調し、これらのデータセットを選択し、組み合わせ、解釈するための実践的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 8.198294998446867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fairness benchmarks play a central role in shaping how we evaluate language models, yet surprisingly little attention has been given to examining the datasets that these benchmarks rely on. This survey addresses that gap by presenting a broad and careful review of the most widely used fairness datasets in current language model research, characterizing them along several key dimensions including their origin, scope, content, and intended use to help researchers better appreciate the assumptions and limitations embedded in these resources. To support more meaningful comparisons and analyses, we introduce a unified evaluation framework that reveals consistent patterns of demographic disparities across datasets and scoring methods. Applying this framework to twenty four common benchmarks, we highlight the often overlooked biases that can influence conclusions about model fairness and offer practical guidance for selecting, combining, and interpreting these datasets. We also point to opportunities for creating new fairness benchmarks that reflect more diverse social contexts and encourage more thoughtful use of these tools going forward. All code, data, and detailed results are publicly available at https://github.com/vanbanTruong/Fairness-in-Large-Language-Models/tree/main/datasets to promote transparency and reproducibility across the research community.
- Abstract(参考訳): 公平性ベンチマークは、言語モデルの評価方法を形成する上で中心的な役割を果たすが、これらのベンチマークが依存するデータセットを調べる上で、驚くほど注意が払われていない。
この調査は、現在の言語モデル研究において最も広く使われているフェアネスデータセットを広く慎重にレビューし、それらの起源、スコープ、コンテンツ、そして研究者がこれらのリソースに埋め込まれた仮定や制限をよりよく理解するための意図された使用を含む、いくつかの重要な側面に沿って特徴付けることによって、ギャップを解消する。
より意味のある比較と分析を支援するために、データセットとスコアリング手法間の人口格差の一貫性のあるパターンを明らかにする統一的な評価フレームワークを導入する。
このフレームワークを20の一般的なベンチマークに適用することで、モデルフェアネスに関する結論に影響を与え、これらのデータセットを選択し、組み合わせ、解釈するための実践的なガイダンスを提供する、見落とされがちなバイアスを強調します。
また、より多様な社会的文脈を反映した新しい公平性ベンチマークを作成し、今後これらのツールのより思慮深い使用を促す機会も指摘しています。
すべてのコード、データ、詳細な結果はhttps://github.com/vanbanTruong/Fairness-in-Large-Language-Models/tree/main/datasetsで公開されている。
関連論文リスト
- Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - The Effectiveness of LLMs as Annotators: A Comparative Overview and Empirical Analysis of Direct Representation [5.249002650134171]
大規模言語モデル(LLM)は、さまざまな自然言語タスクやさまざまなアプリケーションドメインにまたがる強力なサポートツールとして登場した。
本稿では,ラベル付けデータにおけるLCMの可能性について,12種類の研究結果の比較検討を行った。
モデルは有望なコストと時間の節約効果を示すが、代表性、偏見、変化を促す感度、英語の好みなど、かなりの制限がある。
論文 参考訳(メタデータ) (2024-05-02T14:00:22Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。