論文の概要: Position is Power: System Prompts as a Mechanism of Bias in Large Language Models (LLMs)
- arxiv url: http://arxiv.org/abs/2505.21091v1
- Date: Tue, 27 May 2025 12:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.633297
- Title: Position is Power: System Prompts as a Mechanism of Bias in Large Language Models (LLMs)
- Title(参考訳): 位置はパワー:大規模言語モデル(LLM)におけるバイアスのメカニズムとしてのシステムプロンプト
- Authors: Anna Neumann, Elisabeth Kirsten, Muhammad Bilal Zafar, Jatinder Singh,
- Abstract要約: 大規模言語モデル(LLM)におけるシステムプロンプトは、モデル動作を導く事前定義された指示である。
LLMのデプロイでは、コンテキスト間の一貫性のあるレスポンスを保証するために、ますます使用されている。
システムプロンプトがより複雑になるにつれて、直接的または間接的に、副作用の未報告を導入することができる。
- 参考スコア(独自算出の注目度): 7.71667852309443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: System prompts in Large Language Models (LLMs) are predefined directives that guide model behaviour, taking precedence over user inputs in text processing and generation. LLM deployers increasingly use them to ensure consistent responses across contexts. While model providers set a foundation of system prompts, deployers and third-party developers can append additional prompts without visibility into others' additions, while this layered implementation remains entirely hidden from end-users. As system prompts become more complex, they can directly or indirectly introduce unaccounted for side effects. This lack of transparency raises fundamental questions about how the position of information in different directives shapes model outputs. As such, this work examines how the placement of information affects model behaviour. To this end, we compare how models process demographic information in system versus user prompts across six commercially available LLMs and 50 demographic groups. Our analysis reveals significant biases, manifesting in differences in user representation and decision-making scenarios. Since these variations stem from inaccessible and opaque system-level configurations, they risk representational, allocative and potential other biases and downstream harms beyond the user's ability to detect or correct. Our findings draw attention to these critical issues, which have the potential to perpetuate harms if left unexamined. Further, we argue that system prompt analysis must be incorporated into AI auditing processes, particularly as customisable system prompts become increasingly prevalent in commercial AI deployments.
- Abstract(参考訳): 大規模言語モデル (LLM) におけるシステムプロンプト (System prompts in Large Language Models) は、テキスト処理と生成においてユーザ入力よりも優先される、モデル動作をガイドする事前定義されたディレクティブである。
LLMデプロイは、コンテキスト間の一貫性のあるレスポンスを保証するために、ますますそれらを使用します。
モデルプロバイダはシステムプロンプトの基礎を定めているが、デプロイ担当者やサードパーティの開発者は、他の人の追加を視認せずに追加プロンプトを追加することができる。
システムプロンプトがより複雑になるにつれて、直接的または間接的に、副作用の未報告を導入することができる。
この透明性の欠如は、異なる指示における情報の位置がどのようにモデル出力を形作るかについて、根本的な疑問を引き起こす。
そこで本研究では,情報配置がモデル行動に与える影響について検討する。
この目的のために、モデルがシステム内の人口統計情報を、商業的に利用可能な6つのLCMと50の人口統計グループでユーザプロンプトに対してどのように処理するかを比較した。
分析の結果,ユーザ表現と意思決定シナリオの違いが明らかとなった。
これらのバリエーションは、アクセシブルで不透明なシステムレベルの構成に由来するため、表現的、割当的、潜在的なその他のバイアスや下流の害を、ユーザーが検出または修正する能力を超えたリスクを負う。
本研究は,これらの重要な問題に注意を喚起し,未検討のまま放置した場合の害の持続性について検討した。
さらに我々は、AI監査プロセスにシステムプロンプト分析を組み込まなければならない、と論じている。
関連論文リスト
- Reading Between the Prompts: How Stereotypes Shape LLM's Implicit Personalization [6.781972039785424]
LLM(Generative Large Language Models)は、会話における微妙な手がかりからユーザの人口統計情報を推測する。
この結果から,LLMのユーザアイデンティティの表現方法に対する透明性の向上とコントロールの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-22T09:48:51Z) - A Closer Look at System Prompt Robustness [2.5525497052179995]
開発者は、重要なコンテキスト、出力フォーマット、パーソナリティ、ガードレール、コンテンツポリシー、安全対策を指定するためのシステムプロンプトに依存する。
実際には、モデルは関連するガードレールを考慮することを忘れたり、システムとユーザ間の矛盾する要求を解決するのに失敗することが多い。
OpenAIのGPTストアとHuggingFaceのHuggingChatから収集されたプロンプトに基づいて、現実的な新しい評価と微調整データセットを作成します。
論文 参考訳(メタデータ) (2025-02-15T18:10:45Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - How Susceptible are LLMs to Influence in Prompts? [6.644673474240519]
大規模言語モデル(LLM)は、追加のコンテキストを含むプロンプトに非常に敏感である。
我々は,複数の質問に対するLLMの応答が,他のモデルからの予測と説明を含む場合,どのように変化するかを検討する。
本研究は, モデルが強い影響を受けており, 説明が提供されると, 説明の質に関わらず, ゆがみが生じることを示した。
論文 参考訳(メタデータ) (2024-08-17T17:40:52Z) - Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation [17.41434948048325]
我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。
我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。
我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
論文 参考訳(メタデータ) (2023-05-23T09:24:53Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。