論文の概要: A word association network methodology for evaluating implicit biases in LLMs compared to humans
- arxiv url: http://arxiv.org/abs/2510.24488v1
- Date: Tue, 28 Oct 2025 15:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.240427
- Title: A word association network methodology for evaluating implicit biases in LLMs compared to humans
- Title(参考訳): ヒトとの比較によるLLMの暗黙バイアス評価のための単語関連ネットワーク手法
- Authors: Katherine Abramski, Giulio Rossetti, Massimo Stella,
- Abstract要約: 大規模言語モデル(LLM)における暗黙バイアス評価のための新しい単語関連ネットワーク手法を提案する。
提案手法では,LLMに符号化された暗黙的関係構造を解析し,バイアスの定量的および定性的評価を行う。
提案手法の有用性を実証するために, 性別, 宗教, 民族性, 性的指向, 政党に関連する社会的偏見を調べるために, 人間と多用されたLLMの両方に適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large language models (LLMs) become increasingly integrated into our lives, their inherent social biases remain a pressing concern. Detecting and evaluating these biases can be challenging because they are often implicit rather than explicit in nature, so developing evaluation methods that assess the implicit knowledge representations of LLMs is essential. We present a novel word association network methodology for evaluating implicit biases in LLMs based on simulating semantic priming within LLM-generated word association networks. Our prompt-based approach taps into the implicit relational structures encoded in LLMs, providing both quantitative and qualitative assessments of bias. Unlike most prompt-based evaluation methods, our method enables direct comparisons between various LLMs and humans, providing a valuable point of reference and offering new insights into the alignment of LLMs with human cognition. To demonstrate the utility of our methodology, we apply it to both humans and several widely used LLMs to investigate social biases related to gender, religion, ethnicity, sexual orientation, and political party. Our results reveal both convergences and divergences between LLM and human biases, providing new perspectives on the potential risks of using LLMs. Our methodology contributes to a systematic, scalable, and generalizable framework for evaluating and comparing biases across multiple LLMs and humans, advancing the goal of transparent and socially responsible language technologies.
- Abstract(参考訳): 大規模言語モデル(LLM)が私たちの生活にますます統合されるにつれて、その固有の社会的偏見は、いまだに迫りつつある関心事である。
これらのバイアスの検出と評価は、自然界において明示的ではなく暗黙的であることが多いため、LCMの暗黙的知識表現を評価する評価手法の開発が不可欠である。
本稿では,LLM生成した単語関連ネットワーク内の意味的プライミングをシミュレートした,LLMにおける暗黙バイアス評価のための新しい単語関連ネットワーク手法を提案する。
我々のプロンプトベースのアプローチは、LLMにエンコードされた暗黙的関係構造を利用し、バイアスの量的および質的な評価を提供する。
提案手法は, 従来の評価手法と異なり, 様々なLLMと人間との直接比較が可能であり, 参照点を提供し, 人間の認知とLLMのアライメントに対する新たな洞察を提供する。
提案手法の有用性を実証するために, 性別, 宗教, 民族性, 性的指向, 政党に関連する社会的偏見を調べるために, 人間と多用されたLLMの両方に適用した。
以上の結果から, LLMとヒトのバイアスの収束と相違が明らかとなり, LLMの潜在的なリスクに対する新たな視点が得られた。
提案手法は,複数のLLMと人間間でバイアスを評価し,比較するための,体系的でスケーラブルで汎用的なフレームワークに寄与し,透明性と社会的責任を持つ言語技術の目標を推進している。
関連論文リスト
- Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making [0.030586855806896043]
大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。
本研究では,LLMエージェントが外部誘導と人為的ノイズのレベルが異なる条件下でどのように適応するかを検討するためのプロセス指向評価フレームワークを提案する。
LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
論文 参考訳(メタデータ) (2025-08-21T18:55:53Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。