論文の概要: From Sycophantic Consensus to Pluralistic Repair: Why AI Alignment Must Surface Disagreement
- arxiv url: http://arxiv.org/abs/2605.14912v1
- Date: Thu, 14 May 2026 14:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.887772
- Title: From Sycophantic Consensus to Pluralistic Repair: Why AI Alignment Must Surface Disagreement
- Title(参考訳): サイコファンティック・コンセンサスから多元的修復へ:なぜAIのアライメントが表面の分解に必要か
- Authors: Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka,
- Abstract要約: 我々はアグリゲーションのみがデプロイされた多重性アライメントの不完全なプリミティブであると主張する。
我々は,原則的修正と降伏を区別する指標であるPRS(Pluralistic repair Score)を定式化した。
- 参考スコア(独自算出の注目度): 8.459329029609602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pluralistic alignment is typically operationalised as preference aggregation: producing responses that span (Overton), steer toward (Steerable), or proportionally represent (Distributional) diverse human values. We argue that aggregation alone is an incomplete primitive for deployed pluralistic alignment. Under genuine value pluralism, the failure mode of contemporary RLHF-trained assistants is not insufficient coverage but sycophantic consensus: a learned tendency to agree with, validate, and minimise friction with the immediate interlocutor. Because deployed AI systems now mediate consequential deliberation across health, civic life, labour, and governance, the collapse of disagreement at the interaction layer is not a narrow technical concern but a structural failure with distributive consequences. We reframe pluralistic alignment around three conversational mechanisms drawn from Grice's maxims: scoping (acknowledging the limits of one's perspective), signalling (surfacing value-conflict rather than smoothing it over), and repair (revising one's position on principled grounds, not on user pressure). We formalise a metric, the Pluralistic Repair Score (PRS), distinguishing principled revision from capitulation, and present a small-scale empirical illustration on two frontier RLHF-trained models (Claude Sonnet 4.5, N=198; GPT-4o, N=100) showing that, for both, agreement-following coexists with low repair-quality on contested-value prompts. PRS measures an interactional precondition for pluralism (visible disagreement; principled revision) rather than pluralism in full; we discuss the difference, take seriously the reflexive question of whose "principled" counts, and argue that pluralism is most decisively made or unmade at the deployment-governance layer: interfaces, preference-data pipelines, and audit infrastructure.
- Abstract(参考訳): 複数主義的なアライメントは、通常、好みのアグリゲーションとして運用される: オーバートン(Overton)、ステア(Steerable)、あるいは比例的に多様(Distributional)な人間の価値を表す応答を生成する。
我々はアグリゲーションのみがデプロイされた多重性アライメントの不完全なプリミティブであると主張する。
真の価値多重性の下では、現代のRLHF訓練アシスタントの障害モードは、カバー範囲が不十分ではなく、サイコファン的コンセンサスである:即時インターロケータとの摩擦に同意し、検証し、最小化する学習傾向である。
デプロイされたAIシステムは、健康、市民生活、労働、そしてガバナンスに関する一連の議論を仲介しているため、インタラクション層における意見の不一致の崩壊は、技術的に狭い関心事ではなく、分配的な結果を伴う構造的な失敗である。
我々は、Griceの最大値から引き出された3つの会話機構の多元的アライメントを再構成する: スコープ(視点の限界を認識する)、シグナリング(それをスムーズにするのではなく、上向きの値-コンフリクト)、修理(ユーザ圧力ではなく、原則的根拠での位置を変更する)。
本稿では,2つのフロンティア RLHF 訓練モデル (Claude Sonnet 4.5, N=198, GPT-4o, N=100) 上で, 両モデルにおいて, 競合する値のプロンプトに対する修復品質の低い共存者を一致追従することを示す。
PRSは、多元論よりも多元論の相互作用前提条件(可視的不一致、原則的修正)をフルに測定し、その相違を議論し、どの「先導的」な数の「先導的」な問いを真に受け、多元論は最も決定的に作られたか、またはデプロイ-支配層(インターフェイス、嗜好データパイプライン、監査インフラ)で未作成であるかを議論する。
関連論文リスト
- Slurry-as-a-Service: A Modest Proposal on Scalable Pluralistic Alignment for Nutrient Optimization [2.710404836272193]
食品の安全性と審美的人口管理の両目的のために, 自動システムが選択した個人を栄養豊富なスラリーに転換する, 高度な展開状況(mulch)について検討した。
ValueMulchは、マルチモデルを幅広いコミュニティ規範に合わせるための再現可能なトレーニング、デプロイメント、認定パイプラインです。
我々は、人間の価値の完全なスペクトルにシステムを整合させようとする研究者にとって、倫理的考察、制限、含意に関する議論で締めくくった。
論文 参考訳(メタデータ) (2026-03-02T22:04:59Z) - Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - Embracing Contradiction: Theoretical Inconsistency Will Not Impede the Road of Building Responsible AI Systems [1.634867961895661]
このポジションペーパーでは、Responsible AI(RAI)メトリクスでよく見られる理論上の矛盾は、排除すべき欠陥ではなく、価値のある機能として受け入れるべきである、と論じている。
メトリクスを異なる目的として扱うことで、これらの矛盾をナビゲートすることは、3つの重要な利点をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2025-05-23T17:48:09Z) - A Roadmap to Pluralistic Alignment [49.29107308098236]
本稿では,言語モデルをテストベッドとして用いた多元的アライメントのロードマップを提案する。
我々は,AIシステムにおける多元性を定義・運用する3つの可能な方法を特定し,定式化する。
我々は、現在のアライメント技術は、基本的に多元的AIに限られていると論じる。
論文 参考訳(メタデータ) (2024-02-07T18:21:17Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。