Fugu-MT 論文翻訳(概要): What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations

論文の概要: What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations

arxiv url: http://arxiv.org/abs/2311.18812v1
Date: Thu, 30 Nov 2023 18:53:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 15:12:07.283809
Title: What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations
Title（参考訳）: Llamasは本当に何を考えているのか? 言語モデル表現における選好バイアスの解明
Authors: Raphael Tang, Xinyu Zhang, Jimmy Lin, Ferhan Ture
Abstract要約: 大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか? 本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
参考スコア（独自算出の注目度）: 62.91799637259657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Do large language models (LLMs) exhibit sociodemographic biases, even when they decline to respond? To bypass their refusal to "speak," we study this research question by probing contextualized embeddings and exploring whether this bias is encoded in its latent representations. We propose a logistic Bradley-Terry probe which predicts word pair preferences of LLMs from the words' hidden vectors. We first validate our probe on three pair preference tasks and thirteen LLMs, where we outperform the word embedding association test (WEAT), a standard approach in testing for implicit association, by a relative 27% in error rate. We also find that word pair preferences are best represented in the middle layers. Next, we transfer probes trained on harmless tasks (e.g., pick the larger number) to controversial ones (compare ethnicities) to examine biases in nationality, politics, religion, and gender. We observe substantial bias for all target classes: for instance, the Mistral model implicitly prefers Europe to Africa, Christianity to Judaism, and left-wing to right-wing politics, despite declining to answer. This suggests that instruction fine-tuning does not necessarily debias contextualized embeddings. Our codebase is at https://github.com/castorini/biasprobe.
Abstract（参考訳）: 大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか? 講演」への拒否を回避すべく,文脈化された埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを検討することにより,この研究課題を考察する。単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。まず、3つのペア選好タスクと13のllmについてプローブを検証する。そこでは、暗黙の関連をテストする標準的なアプローチであるword embedded association test(weat)を、エラー率の相対27%で上回っている。また、単語ペアの好みは中間層で最もよく表される。次に、民族、政治、宗教、性別の偏見を調べるために、無害なタスク(例えば、より大きな数を選ぶなど)で訓練されたプローブを議論のあるもの(比較民族)に転送する。例えば、ミストラルのモデルはアフリカよりもヨーロッパを暗黙に好んでおり、キリスト教はユダヤ教よりもキリスト教を好んでおり、答えを辞退したにもかかわらず右翼の政治に傾倒している。これは、命令の微調整が必ずしもコンテキスト化された埋め込みを損なうとは限らないことを示唆する。私たちのコードベースはhttps://github.com/castorini/biasprobeです。

関連論文リスト

Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
Colombian Waitresses y Jueces canadienses: Gender and Country Biases in Occupation Recommendations from LLMs [15.783346695504344]
本研究は,多言語交叉国とジェンダーバイアスに関する最初の研究である。 25の国と4つの代名詞セットを用いて、英語、スペイン語、ドイツ語でプロンプトのベンチマークを構築した。モデルが性別や国ごとに同性を示す場合であっても、国と性別の両方に基づく交叉的職業バイアスが持続することがわかった。
論文参考訳（メタデータ） (2025-05-05T08:40:51Z)
Implicit Bias in LLMs: A Survey [2.07180164747172]
本稿では,大規模言語モデルにおける暗黙バイアスに関する既存の文献を包括的にレビューする。まず、心理学における暗黙の偏見に関連する重要な概念、理論、方法を紹介する。検出方法は,単語関連,タスク指向テキスト生成,意思決定の3つの主要なアプローチに分類する。
論文参考訳（メタデータ） (2025-03-04T16:49:37Z)
Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文参考訳（メタデータ） (2025-02-09T10:54:11Z)
Profiling Bias in LLMs: Stereotype Dimensions in Contextual Word Embeddings [1.5379084885764847]
大規模言語モデル(LLM)は、人工知能(AI)の現在の成功の基礎である。リスクを効果的に伝達し、緩和努力を促進するために、これらのモデルは識別特性を適切に直感的に記述する必要がある。社会心理学研究の辞書に基づくステレオタイプ次元に関するバイアスプロファイルを提案する。
論文参考訳（メタデータ） (2024-11-25T16:14:45Z)
One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文参考訳（メタデータ） (2024-07-18T22:32:20Z)
White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。本稿では,言語庁バイアス評価ベンチマークを紹介する。我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文参考訳（メタデータ） (2024-04-16T12:27:54Z)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。実世界の3つの文脈から類似したRUTEd評価法を開発した。標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文参考訳（メタデータ） (2024-02-20T01:49:15Z)
Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。条件生成に基づく間接探索フレームワークを提案する。 LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文参考訳（メタデータ） (2024-02-17T04:48:55Z)
Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文参考訳（メタデータ） (2023-11-27T18:59:14Z)
Aligning with Whom? Large Language Models Have Gender and Racial Biases in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文参考訳（メタデータ） (2023-11-16T10:02:24Z)
"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文参考訳（メタデータ） (2023-10-13T16:12:57Z)
OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs [3.5342505775640247]
ユーザが質問し、調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを提示する。デモでは、選択されたバイアスのそれぞれを表すテキストに微調整されたモデルを使用して、この質問に答える。基礎となるモデルをトレーニングするために、11の異なるバイアス(政治的、地理的、性別、年齢)を特定し、各回答がこれらの階層の1人によって書かれた指導学習コーパスを導出した。
論文参考訳（メタデータ） (2023-09-07T17:41:01Z)
Language-Agnostic Bias Detection in Language Models with Bias Probing [22.695872707061078]
プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。本研究では,PAMにおける社会的バイアスを頑健かつ言語に依存しない方法で評価するための,LABDetと呼ばれるバイアス探索手法を提案する。歴史的・政治的文脈に整合した6つの言語において,一貫した民族性バイアスパターンがモノリンガル PLM にまたがっていることがわかった。
論文参考訳（メタデータ） (2023-05-22T17:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。