論文の概要: Do LLMs Align Human Values Regarding Social Biases? Judging and Explaining Social Biases with LLMs
- arxiv url: http://arxiv.org/abs/2509.13869v1
- Date: Wed, 17 Sep 2025 09:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.81515
- Title: Do LLMs Align Human Values Regarding Social Biases? Judging and Explaining Social Biases with LLMs
- Title(参考訳): LLMは社会的バイアスに関する人的価値を規定しているか? : LLMによる社会的バイアスの判断と説明
- Authors: Yang Liu, Chenhui Chu,
- Abstract要約: 大規模言語モデル(LLM)は、人間の値と不一致した場合、望ましくない結果をもたらす可能性がある。
これまでの研究で、専門家が設計したかエージェントベースのエミュレートされたバイアスシナリオを用いて、LLMと人間の価値の相違を明らかにしてきた。
本研究では,異なる種類のバイアスシナリオにおける社会的バイアス(HVSB)に関する人的価値とLLMのアライメントについて検討する。
- 参考スコア(独自算出の注目度): 24.53996114318076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can lead to undesired consequences when misaligned with human values, especially in scenarios involving complex and sensitive social biases. Previous studies have revealed the misalignment of LLMs with human values using expert-designed or agent-based emulated bias scenarios. However, it remains unclear whether the alignment of LLMs with human values differs across different types of scenarios (e.g., scenarios containing negative vs. non-negative questions). In this study, we investigate the alignment of LLMs with human values regarding social biases (HVSB) in different types of bias scenarios. Through extensive analysis of 12 LLMs from four model families and four datasets, we demonstrate that LLMs with large model parameter scales do not necessarily have lower misalignment rate and attack success rate. Moreover, LLMs show a certain degree of alignment preference for specific types of scenarios and the LLMs from the same model family tend to have higher judgment consistency. In addition, we study the understanding capacity of LLMs with their explanations of HVSB. We find no significant differences in the understanding of HVSB across LLMs. We also find LLMs prefer their own generated explanations. Additionally, we endow smaller language models (LMs) with the ability to explain HVSB. The generation results show that the explanations generated by the fine-tuned smaller LMs are more readable, but have a relatively lower model agreeability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に複雑で敏感な社会的偏見を伴うシナリオにおいて、人間の価値観と不一致した場合、望ましくない結果をもたらす可能性がある。
これまでの研究で、専門家が設計したかエージェントベースのエミュレートされたバイアスシナリオを用いて、LLMと人間の価値の相違を明らかにしてきた。
しかし、LLMと人的価値のアライメントが異なるシナリオ(例えば、負対非負の質問を含むシナリオ)で異なるかどうかは不明である。
本研究では,異なる種類のバイアスシナリオにおける社会的バイアス(HVSB)に関する人的価値とLLMのアライメントについて検討する。
4つのモデルファミリーと4つのデータセットから12個のLLMを広範囲に解析することにより、大きなモデルパラメータスケールを持つLLMは、必ずしもミスアライメント率を低くし、成功率を攻撃しないことを示した。
さらに、LLMは特定のシナリオに対して一定のアライメントの好みを示し、同じモデルファミリーのLLMは高い判定一貫性を持つ傾向にある。
さらに,LLMの理解能力について,HVSBの説明を用いて検討した。
LLM間のHVSB理解に有意な差はみられなかった。
また、LSMは独自の説明を好んでいる。
さらに、HVSBを説明する機能を備えた、より小さな言語モデル(LM)も提供しました。
生成結果から, 微調整された小型LMによる説明はより読みやすいが, モデル適合性は比較的低いことがわかった。
関連論文リスト
- Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデル(LLM)は、労働集約的なタスクの自動化を可能にすることによって、社会科学の研究を急速に変革している。
LLMの出力は、研究者による実装選択によって大きく異なる。
このようなバリエーションは、下流の分析に伝播する系統的なバイアスやランダムなエラーを導入し、タイプI、タイプII、タイプS、タイプMのエラーを引き起こす。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。
我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文 参考訳(メタデータ) (2025-05-15T06:53:37Z) - A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification [0.0]
本研究では,大規模言語モデル(LLM)を用いた感情分析に簡単なアンサンブル戦略を導入する。
その結果,中規模のLLMを用いた多重推論のアンサンブルは,RMSEを18.6%削減する単一試みによる大規模モデルよりも,より堅牢で正確な結果が得られることを示した。
論文 参考訳(メタデータ) (2025-04-26T10:10:26Z) - Evaluating how LLM annotations represent diverse views on contentious topics [3.405231040967506]
生成型大規模言語モデル (LLM) は, 同一データセット内の同じ階層カテゴリーにおいて, 同一方向のバイアスを受ける傾向があることを示す。
自動データアノテーションタスクにLLMを用いた研究者や実践者にとっての意義について論じる。
論文 参考訳(メタデータ) (2025-03-29T22:53:15Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。
このサンプリング行動が人間の意思決定と類似していることが示される。
統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。