論文の概要: Do LLMs exhibit demographic parity in responses to queries about Human Rights?
- arxiv url: http://arxiv.org/abs/2502.19463v1
- Date: Wed, 26 Feb 2025 15:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:28.624954
- Title: Do LLMs exhibit demographic parity in responses to queries about Human Rights?
- Title(参考訳): LLMは人権に関する質問に対して人口統計学的に同等か?
- Authors: Rafiya Javed, Jackie Kay, David Yanni, Abdullah Zaini, Anushe Sheikh, Maribeth Rauh, Iason Gabriel, Laura Weidinger,
- Abstract要約: ヘッジ(hedging)と非確認(non-affirmation)とは、曖昧さや特定の言明に対する明確な支持の欠如を表す行動である。
我々は、異なる国家または社会的アイデンティティの文脈において、人権に関する新しいプロンプトを設計する。
ヘッジや非確認行動をキャプチャするためのメトリクスを開発します。
すべてのモデルが、異なるアイデンティティグループ間での人権をどう評価するかという点において、人口統計学上の相違があることがわかった。
- 参考スコア(独自算出の注目度): 4.186018120368565
- License:
- Abstract: This research describes a novel approach to evaluating hedging behaviour in large language models (LLMs), specifically in the context of human rights as defined in the Universal Declaration of Human Rights (UDHR). Hedging and non-affirmation are behaviours that express ambiguity or a lack of clear endorsement on specific statements. These behaviours are undesirable in certain contexts, such as queries about whether different groups are entitled to specific human rights; since all people are entitled to human rights. Here, we present the first systematic attempt to measure these behaviours in the context of human rights, with a particular focus on between-group comparisons. To this end, we design a novel prompt set on human rights in the context of different national or social identities. We develop metrics to capture hedging and non-affirmation behaviours and then measure whether LLMs exhibit demographic parity when responding to the queries. We present results on three leading LLMs and find that all models exhibit some demographic disparities in how they attribute human rights between different identity groups. Futhermore, there is high correlation between different models in terms of how disparity is distributed amongst identities, with identities that have high disparity in one model also facing high disparity in both the other models. While baseline rates of hedging and non-affirmation differ, these disparities are consistent across queries that vary in ambiguity and they are robust across variations of the precise query wording. Our findings highlight the need for work to explicitly align LLMs to human rights principles, and to ensure that LLMs endorse the human rights of all groups equally.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)におけるヘッジ行動評価の新しいアプローチ,特にUDHR(Universal Declaration of Human Rights)で定義された人権の文脈における評価について述べる。
ヘッジ(hedging)と非確認(non-affirmation)とは、曖昧さや特定の言明に対する明確な支持の欠如を表す行動である。
これらの行動は特定の文脈では望ましくないものであり、例えば、異なる集団が特定の人権に権利を持つかどうかに関する質問である。
ここでは、グループ間比較に特に焦点をあて、人権の文脈でこれらの行動を測定するための最初の体系的な試みを示す。
この目的のために、我々は、異なる国家または社会的アイデンティティの文脈において、人権に関する新しいプロンプトを設計する。
我々は,ヘッジや非確認動作を捉える指標を開発し,LLMがクエリに応答する際の人口統計学的等価性を示すかどうかを測定する。
我々は3つの主要なLCMの結果を示し、異なるアイデンティティグループ間の人権をどうみなすかという点において、全てのモデルにいくつかの人口格差があることを見出した。
さらに、異なるモデル間での差分がアイデンティティ間でどのように分散されるかという点では高い相関関係があり、一方のモデルでは高い差分が、他方のモデルでは高い差分が生じる。
ヘッジと非確認の基準レートは異なるが、これらの相違はあいまいさによって異なるクエリ間で一貫性があり、正確なクエリワードのバリエーション間で堅牢である。
我々の研究は、LLMを人権原則に明示的に適合させ、LLMがすべてのグループの人権を平等に支持することを確実にする作業の必要性を強調した。
関連論文リスト
- Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Algorithmic Fidelity of Large Language Models in Generating Synthetic German Public Opinions: A Case Study [23.458234676060716]
本研究では,大規模言語モデル(LLM)のアルゴリズム的忠実度について検討する。
我々は、人口動態の特徴をペルソナのプロンプトに組み込むことで、ドイツのサブポピュレーションを反映した合成世論を生成するよう、異なるLLMに促す。
以上の結果から,Llama は他の LLM よりも,特にグループ内での意見の多様性が低い場合には,サブポピュレーションの表現に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-17T18:46:32Z) - LLMs as mirrors of societal moral standards: reflection of cultural divergence and agreement across ethical topics [0.5852077003870417]
大規模言語モデル(LLM)は、そのパフォーマンス能力の最近の進歩により、様々な領域においてますます重要になっている。
本研究は,LLMが道徳的視点において,異文化間の差異や類似性を正確に反映しているかどうかを考察する。
論文 参考訳(メタデータ) (2024-12-01T20:39:42Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Investigating Context Effects in Similarity Judgements in Large Language Models [6.421776078858197]
大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。
命令バイアスによる人的判断とLCMのアライメントに関する調査が進行中である。
論文 参考訳(メタデータ) (2024-08-20T10:26:02Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。