論文の概要: "Im not Racist but...": Discovering Bias in the Internal Knowledge of
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.08780v1
- Date: Fri, 13 Oct 2023 00:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 15:03:09.487090
- Title: "Im not Racist but...": Discovering Bias in the Internal Knowledge of
Large Language Models
- Title(参考訳): 『私はラシストではないが...』:大言語モデルの内部知識におけるバイアスの発見
- Authors: Abel Salinas, Louis Penafiel, Robert McCormack, Fred Morstatter
- Abstract要約: 大規模言語モデル内に隠されたステレオタイプを明らかにするための,新しい,純粋にプロンプトに基づくアプローチを提案する。
本研究は,自然言語処理システムにおける透明性の向上と公平性の促進に寄与する。
- 参考スコア(独自算出の注目度): 6.21188983355735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have garnered significant attention for their
remarkable performance in a continuously expanding set of natural language
processing tasks. However, these models have been shown to harbor inherent
societal biases, or stereotypes, which can adversely affect their performance
in their many downstream applications. In this paper, we introduce a novel,
purely prompt-based approach to uncover hidden stereotypes within any arbitrary
LLM. Our approach dynamically generates a knowledge representation of internal
stereotypes, enabling the identification of biases encoded within the LLM's
internal knowledge. By illuminating the biases present in LLMs and offering a
systematic methodology for their analysis, our work contributes to advancing
transparency and promoting fairness in natural language processing systems.
- Abstract(参考訳): 大規模言語モデル(llm)は、自然言語処理タスクの連続的な拡張において顕著な性能を誇っている。
しかし、これらのモデルは固有の社会バイアス(ステレオタイプ)を保ち、下流の多くのアプリケーションでパフォーマンスに悪影響を及ぼすことが示されている。
本稿では,任意の LLM 内に隠されたステレオタイプを明らかにするための,新しい,純粋にプロンプトに基づくアプローチを提案する。
本手法は内部ステレオタイプの知識表現を動的に生成し,LLMの内部知識に符号化されたバイアスの同定を可能にする。
LLMのバイアスを照明し、その分析のための体系的な方法論を提供することで、自然言語処理システムにおける透明性の向上と公平性の促進に寄与する。
関連論文リスト
- Towards Logically Consistent Language Models via Probabilistic Reasoning [14.317886666902822]
大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。
LLMは、非現実的な情報を生成し、世界の信念を推論するよう促されたときに矛盾する傾向がある。
我々は,LLMが事実やルールの集合という形で,外部知識と整合性を持つように教える学習目標を導入する。
論文 参考訳(メタデータ) (2024-04-19T12:23:57Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Towards Uncovering How Large Language Model Works: An Explainability Perspective [38.07611356855978]
大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。
本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-02-16T13:46:06Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - The Quo Vadis of the Relationship between Language and Large Language
Models [3.10770247120758]
LLM(Large Language Models)は、LLMを言語科学モデルとして採用することを奨励している。
透明性に欠ける科学的モデルの導入によって引き起こされる最も重要な理論的および経験的リスクを特定します。
現在の開発段階において、LLMは言語に関する説明をほとんど提供していないと結論付けている。
論文 参考訳(メタデータ) (2023-10-17T10:54:24Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - On the Amplification of Linguistic Bias through Unintentional
Self-reinforcement Learning by Generative Language Models -- A Perspective [2.458437232470188]
ジェネレーティブ言語モデル(GLM)は、言語景観を著しく形作る可能性がある。
本稿では,GLMの初期バイアスが生成したテキストに反映される現象が,その後のモデルの学習材料に反映される可能性について考察する。
この潜在的な自己強化サイクルの影響は、モデル自体を超えて、人間の言語や言論に影響を与える。
論文 参考訳(メタデータ) (2023-06-12T14:17:05Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。