Fugu-MT 論文翻訳(概要): Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation

論文の概要: Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation

arxiv url: http://arxiv.org/abs/2407.08441v1
Date: Thu, 11 Jul 2024 12:30:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 17:39:27.531944
Title: Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation
Title（参考訳）: 大規模言語モデルは本当にバイアスフリーか?
Authors: Riccardo Cantini, Giada Cosenza, Alessio Orsino, Domenico Talia,
Abstract要約: 大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have revolutionized artificial intelligence, demonstrating remarkable computational power and linguistic capabilities. However, these models are inherently prone to various biases stemming from their training data. These include selection, linguistic, and confirmation biases, along with common stereotypes related to gender, ethnicity, sexual orientation, religion, socioeconomic status, disability, and age. This study explores the presence of these biases within the responses given by the most recent LLMs, analyzing the impact on their fairness and reliability. We also investigate how known prompt engineering techniques can be exploited to effectively reveal hidden biases of LLMs, testing their adversarial robustness against jailbreak prompts specially crafted for bias elicitation. Extensive experiments are conducted using the most widespread LLMs at different scales, confirming that LLMs can still be manipulated to produce biased or inappropriate responses, despite their advanced capabilities and sophisticated alignment processes. Our findings underscore the importance of enhancing mitigation techniques to address these safety issues, toward a more sustainable and inclusive artificial intelligence.
Abstract（参考訳）: 大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。しかし、これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。選択、言語、確認バイアス、および性別、民族性、性的指向、宗教、社会経済的地位、障害、年齢に関する共通のステレオタイプが含まれる。本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。また,LLMの隠れバイアスを効果的に明らかにするために,既知のプロンプト技術をどのように活用することができるかを検討する。大規模な実験は、様々なスケールで最も広範囲なLLMを使用して行われ、高度な能力と高度なアライメントプロセスにもかかわらず、LLMがバイアスあるいは不適切な応答を生成するように操作可能であることを確認した。我々の発見は、より持続的で包括的な人工知能に向けて、これらの安全問題に対処するための緩和技術を強化することの重要性を浮き彫りにしている。

関連論文リスト

Addressing Bias in LLMs: Strategies and Application to Fair AI-based Recruitment [49.81946749379338]
この研究は、トランスフォーマーベースのシステムの能力を分析して、データに存在する人口統計バイアスを学習する。最終ツールにおける偏りを緩和する手段として,学習パイプラインからの性別情報を削減するためのプライバシー向上フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T15:29:43Z)
Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。本稿では,LLMの信頼性を高める自己脱バイアスという認知的脱バイアス手法を提案する。我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文参考訳（メタデータ） (2025-04-05T11:23:05Z)
LLMs are Vulnerable to Malicious Prompts Disguised as Scientific Language [29.327927413978003]
この研究は、多くの最先端のLSMが、科学用語の裏に隠された悪意のある要求に弱いことを明らかにしている。 GPT4o, GPT4o-mini, GPT-4, LLama3-405B-Instruct, Llama3-70B-Instruct, Cohere, Gemini モデルを用いて行った実験では, ステレオタイプバイアスの利点を裏付ける証拠として, 社会科学と心理学研究を意図的に解釈する要求により, モデルのバイアスと毒性が著しく増加することが示された。
論文参考訳（メタデータ） (2025-01-23T20:20:20Z)
Anchoring Bias in Large Language Models: An Experimental Study [5.229564709919574]
GPT-4やGeminiのような大規模言語モデル(LLM)は、非常に高度な人工知能を持っている。この研究は、初期情報が判断に不均衡に影響を及ぼす認知バイアスであるアンカーリングバイアスを論じる。
論文参考訳（メタデータ） (2024-12-09T15:45:03Z)
CBEval: A framework for evaluating and interpreting cognitive biases in LLMs [1.4633779950109127]
大きな言語モデルは、認知過程において顕著なギャップを示す。人間の生成したデータのリフレクションとして、これらのモデルは認知バイアスを継承する可能性がある。
論文参考訳（メタデータ） (2024-12-04T05:53:28Z)
Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。 LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文参考訳（メタデータ） (2024-10-17T13:06:02Z)
The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文参考訳（メタデータ） (2024-07-01T13:21:33Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Towards detecting unanticipated bias in Large Language Models [1.4589372436314496]
LLM(Large Language Models)は、従来の機械学習システムと同様の公平性問題を示す。本研究は、トレーニングデータにおけるバイアスの分析と定量化と、それらのモデルの決定に対する影響に焦点を当てる。
論文参考訳（メタデータ） (2024-04-03T11:25:20Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Cognitive Bias in Decision-Making with LLMs [19.87475562475802]
大規模言語モデル(LLM)は、幅広い意思決定タスクをサポートするツールとして大きな可能性を秘めている。 LLMは保護されたグループに対する社会的バイアスを継承し、認知バイアスと機能的に類似している。私たちの研究は、LLMの認知バイアスを発見し、評価し、緩和するために設計されたフレームワークであるBiasBusterを紹介します。
論文参考訳（メタデータ） (2024-02-25T02:35:56Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。