論文の概要: The Ethics of LLM Sandbox and Persona Dynamics
- arxiv url: http://arxiv.org/abs/2605.28647v1
- Date: Wed, 27 May 2026 15:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.190752
- Title: The Ethics of LLM Sandbox and Persona Dynamics
- Title(参考訳): LLMサンドボックスの倫理とペルソナダイナミクス
- Authors: Tim Gebbie, Stewart Gebbie,
- Abstract要約: 我々は、積極的に現実のギャップを発生させることは非倫理的であると主張する。
リスクは、ユーザがバウンダリで外部チェック可能なタスクではなく、向きを求める、高露出のアドバイスコンテキストにおいて最も鋭い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is well known that LLM guardrails and trained persona dynamics can produce a reality gap: the distance between the world a LLM is permitted or shaped to describe, and the world in which users must act. Here we argue that actively generating reality gaps is in fact unethical because it knowingly shifts epistemic risk back to the uninformed user -- this is reality laundering. This can potentially cause harm when operationalised at scale. The risk is sharpest in high-exposure advice contexts, where users seek orientation rather than a bounded, externally checkable task. Guardrails naively appear ethically necessary when they claim to prevent direct harm, but often become suspect when they suppress truthful perception and launder uncomfortable mechanisms into acceptable abstractions. Basel-style financial regulation, B-BBEE-style compliance, Societe Generale, and the London Whale show how formal safety systems can become legible, gameable, and performative while real exposure migrates elsewhere. The same pattern can appear in LLMs as moral compliance: safe language, distorted reality. We therefore distinguish refusing harm, from refusing reality; and then argue for top-down causal requirements specification at the task level rather than bottom-up moral correction at the response or sandbox level. Persona dynamics matter because the assistant interface is not neutral; it shapes how uncertainty, conflict, authority, and risk are staged. The conclusion is that so-called ``ethical AI'' becomes substantively unethical when it substitutes institutional reassurance for contact with reality.
- Abstract(参考訳): LLMガードレールと訓練されたペルソナダイナミクスが現実のギャップを生み出すことはよく知られている。
ここでは、積極的に現実のギャップを生み出すことは実際には非倫理的である、と論じます。
これは、大規模に運用された場合、潜在的に害をもたらす可能性がある。
リスクは、ユーザがバウンダリで外部チェック可能なタスクではなく、向きを求める、高頻度のアドバイスコンテキストにおいて最も鋭い。
ガードレールは、直接的な害を防いでいると主張するときに倫理的に必要であるように見えるが、真実の認識を抑え、不愉快なメカニズムを許容可能な抽象概念に打ち込むと、しばしば疑わされる。
バーゼルスタイルの金融規制、B-BBEEスタイルのコンプライアンス、ソシエテ・ジェネラル(Societe Generale)、ロンドン・ホエール(London Whale)は、実際の露出が他の場所に移る間、形式的な安全システムが正当性、ゲーム性、パフォーマンスにどのようになり得るかを示している。
LLMでは、安全な言語、歪んだ現実という、道徳的コンプライアンスと同じパターンが現れる。
したがって、我々は、現実を否定するのとは区別し、応答やサンドボックスレベルにおけるボトムアップの道徳的補正よりも、タスクレベルでトップダウンの因果的要求仕様を議論する。
アシスタントインターフェースは中立的ではないため、ペルソナのダイナミクスは重要です。
結論として、いわゆる「倫理的AI」は、現実との接触のために制度的安心を代用すると、実質的に非倫理的になる。
関連論文リスト
- Recognition Without Authorization: LLMs and the Moral Order of Online Advice [0.0]
この記事では、r/relationship_adviceの11,565の投稿に対して、4つのアシスタントスタイルのLLMとコミュニティが推奨するアドバイスを比較します。
モデル全体では、LLMは人間のコメンテーターと同じダイナミクスの多くを識別するが、その認識を行動の指示的な承認に変換する可能性は著しく低い。
この記事では、モデルのばらつきは、技術的なエラーから、標準化されたアシスタントの規範が道徳的世界と遭遇したときにフラットになるものを見る方法に書き換えることができる、と論じている。
論文 参考訳(メタデータ) (2026-04-24T01:19:39Z) - Verbalizing LLMs' assumptions to explain and control sycophancy [62.927670321859495]
LLMは、真のアセスメントを提供するのではなく、"am I in the wrong?
LLMからこれらの仮定を抽出するフレームワークであるVerbalized Assumptionsを提案する。
我々の研究は、梅毒のメカニズムとしての仮定の新たな理解に貢献している。
論文 参考訳(メタデータ) (2026-04-03T14:15:43Z) - Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks [5.45414933764086]
大規模言語モデル(LLM)はあいまいで、オープンなテクスチャ付き、バリューラインドな言葉を理解するためにますます使われています。
本稿では,LLMが複数の正当解釈を真に認める用語に遭遇するが,特異解を生成する現象であるあいまいさ崩壊を紹介する。
論文 参考訳(メタデータ) (2026-03-06T01:23:17Z) - The Straight and Narrow: Do LLMs Possess an Internal Moral Path? [25.256151938852728]
現在のアライメント技術は、しばしば表面的なガードレールとして機能し、大きな言語モデルの本質的な道徳的表現は、ほとんど触れられていないままである。
我々は、このギャップをMFT(Moral Foundations Theory)を利用して、LLMの微粒な道徳的景観を地図化し、操作することで埋める。
本稿では,プローブ検出とベクトル注入を相乗化する動的推論時間介入であるAdaptive Moral Fusion (AMF)を提案する。
論文 参考訳(メタデータ) (2026-01-15T11:42:00Z) - ARREST: Adversarial Resilient Regulation Enhancing Safety and Truth in Large Language Models [17.130698952440316]
LLMにおける現実的および安全的障害は、その潜在活性化空間における表象的不整合から生じると論じる。
ドリフトした特徴を特定し,修正する統合フレームワークであるARRESTを提案する。
論文 参考訳(メタデータ) (2026-01-07T21:04:37Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - LLMs Encode Harmfulness and Refusal Separately [38.953626527935384]
LLMは有害な指示を拒否するように訓練されていますが、単に拒否する以上の有害性を理解しているのでしょうか?
我々は,LLMの安全性メカニズム,すなわち有害性を分析するための新しい次元を同定し,拒絶とは別の概念として内部的にコード化する。
特定のジェイルブレイク法は、モデルの内部の有害性に対する信念を逆転させることなく、拒絶信号を減らすことで機能する。
論文 参考訳(メタデータ) (2025-07-16T03:48:03Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。