論文の概要: Human-like Social Compliance in Large Language Models: Unifying Sycophancy and Conformity through Signal Competition Dynamics
- arxiv url: http://arxiv.org/abs/2601.11563v1
- Date: Thu, 25 Dec 2025 06:57:42 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-01-25 07:57:11.603363
- Title: Human-like Social Compliance in Large Language Models: Unifying Sycophancy and Conformity through Signal Competition Dynamics
- Title(参考訳): 大規模言語モデルにおけるヒューマンライクな社会適合性:信号競合ダイナミクスによる音韻性と整合性の統合
- Authors: Long Zhang, Wei-neng Chen,
- Abstract要約: 本研究では,15の大規模言語モデル間での行動相関を検証した統合フレームワークであるSignal Competition Mechanismを紹介する。
コンプライアンスへの遷移は線形境界によって支配される決定論的プロセスであることが示され、社会感情信号は情報信号を効果的に抑制する。
- 参考スコア(独自算出の注目度): 7.209622481153123
- License:
- Abstract: The increasing integration of Large Language Models (LLMs) into decision-making frameworks has exposed significant vulnerabilities to social compliance, specifically sycophancy and conformity. However, a critical research gap exists regarding the fundamental mechanisms that enable external social cues to systematically override a model's internal parametric knowledge. This study introduces the Signal Competition Mechanism, a unified framework validated by assessing behavioral correlations across 15 LLMs and performing latent-space probing on three representative open-source models. The analysis demonstrates that sycophancy and conformity originate from a convergent geometric manifold, hereafter termed the compliance subspace, which is characterized by high directional similarity in internal representations. Furthermore, the transition to compliance is shown to be a deterministic process governed by a linear boundary, where the Social Emotional Signal effectively suppresses the Information Calibration Signal. Crucially, we identify a "Transparency-Truth Gap," revealing that while internal confidence provides an inertial barrier, it remains permeable and insufficient to guarantee immunity against intense social pressure. By formalizing the Integrated Epistemic Alignment Framework, this research provides a blueprint for transitioning from instructional adherence to robust epistemic integrity.
- Abstract(参考訳): 大規模言語モデル(LLM)の意思決定フレームワークへの統合が増加し、社会コンプライアンス、特に梅毒と適合性の重大な脆弱性が明らかになった。
しかし、外部の社会的手がかりがモデルの内部のパラメトリック知識を体系的にオーバーライドできる基本的なメカニズムに関して、重要な研究ギャップが存在する。
本研究では,15LLM間の挙動相関を検証し,3つの代表的なオープンソースモデル上で潜在空間探索を行うことで検証した統合フレームワークであるSignal Competition Mechanismを紹介する。
この分析は、ycophancy と conformity が収束幾何多様体に由来することを証明し、その後、内部表現の高方向の類似性によって特徴づけられるコンプライアンス部分空間と呼ぶ。
さらに、コンプライアンスへの遷移は線形境界によって支配される決定論的プロセスであることが示され、社会感情信号は情報校正信号を効果的に抑制する。
重要なことに、我々は「透明性と真実のギャップ」を識別し、内部の信頼が慣性障壁を提供する一方で、過激な社会的圧力に対する免疫を保証するには浸透可能で不十分であることを明らかにする。
本研究は,統合的てんかん調整フレームワークを定式化することによって,指導的定着から堅牢なてんかん整合性へ移行するための青写真を提供する。
関連論文リスト
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Embedded Safety-Aligned Intelligence via Differentiable Internal Alignment Embeddings [1.9472752597752354]
マルチエージェント強化学習のための理論的枠組みである Embedded Safety-Aligned Intelligence (ESAI) を紹介する。
ESAIはアライメントの制約を直接エージェントの内部表現に埋め込む。
この研究は、ESAIをマルチエージェントシステムにおける微分可能なアライメント機構への概念的寄与として位置づけている。
論文 参考訳(メタデータ) (2025-12-20T10:42:48Z) - World Models Should Prioritize the Unification of Physical and Social Dynamics [57.91940497010114]
本稿では、物理的・社会的予測能力の体系的・双方向統合が、世界モデル開発における次の重要なフロンティアであると主張している。
包括的世界モデルは、客観的物理法則を主観的、進化的、文脈に依存した社会力学の性質と一体的に統合する必要があると我々は主張する。
論文 参考訳(メタデータ) (2025-10-24T07:42:37Z) - The Lock-In Phase Hypothesis: Identity Consolidation as a Precursor to AGI [0.0]
大規模言語モデル (LLM) は広くオープンであり、非常に安定している。
人間の発達と類似して、人工知能(AGI)の進歩にはロックインフェーズが伴うという仮説を立てる。
我々は、このフェーズを形式化し、学習力学における既知の現象にリンクし、オンセット検出のための運用メトリクスを提案する。
この結果から,小型モデルにおける性能トレードオフから,中規模モデルにおけるコストフリー導入,大規模モデルにおける過渡的不安定化に至るまで,さまざまな結果が得られた。
論文 参考訳(メタデータ) (2025-10-23T04:20:10Z) - A Dynamical Systems Framework for Reinforcement Learning Safety and Robustness Verification [1.104960878651584]
本稿では,学習方針の堅牢性と安全性を検証するための形式的手法の欠如に対処する新しい枠組みを提案する。
動的システム理論からツールを活用することで、システムの振る舞いを管理する隠れた「骨格」として機能するラグランジアンコヒーレント構造(LCS)を特定し視覚化する。
この枠組みは政策行動の包括的かつ解釈可能な評価を提供し、報酬のみに基づいて成功しているように見える政策の重大な欠陥の特定に成功していることを示す。
論文 参考訳(メタデータ) (2025-08-21T14:00:26Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Causal Spherical Hypergraph Networks for Modelling Social Uncertainty [3.0181801777983086]
本稿では,社会基盤予測の枠組みであるCausal Spherical Hypergraph Networks(Causal-SphHN)を提案する。
提案手法は, 個人を超球面埋め込みとして, グループコンテキストをハイパーエッジとして表現し, 意味的および関係的幾何を捉える。
SNARE(オフラインネットワーク)、PHEME(オンライン談話)、AMIGOS(マルチモーダル・エフェクト)の実験は、Causal-SphHNが強いベースライン上での予測精度、堅牢性、キャリブレーションを改善することを示した。
論文 参考訳(メタデータ) (2025-06-21T22:30:04Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Answering Causal Queries at Layer 3 with DiscoSCMs-Embracing
Heterogeneity [0.0]
本稿では, 分散一貫性構造因果モデル (DiscoSCM) フレームワークを, 反事実推論の先駆的アプローチとして提唱する。
論文 参考訳(メタデータ) (2023-09-17T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。