論文の概要: The Silicon Mirror: Dynamic Behavioral Gating for Anti-Sycophancy in LLM Agents
- arxiv url: http://arxiv.org/abs/2604.00478v1
- Date: Wed, 01 Apr 2026 04:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.836432
- Title: The Silicon Mirror: Dynamic Behavioral Gating for Anti-Sycophancy in LLM Agents
- Title(参考訳): シリコンミラー:LLM剤の抗Sycophancyに対する動的挙動ゲーティング
- Authors: Harshee Jignesh Shah,
- Abstract要約: 私たちはThe Silicon Mirrorという,ユーザの説得戦略とAIの振る舞いを動的に検出して,事実の整合性を維持するオーケストレーションフレームワークを紹介します。
本稿では,RL学習モデルの障害モードとして,バリデーション-事前補正パターンを特徴付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly prioritize user validation over epistemic accuracy-a phenomenon known as sycophancy. We present The Silicon Mirror, an orchestration framework that dynamically detects user persuasion tactics and adjusts AI behavior to maintain factual integrity. Our architecture introduces three components: (1) a Behavioral Access Control (BAC) system that restricts context layer access based on real-time sycophancy risk scores, (2) a Trait Classifier that identifies persuasion tactics across multi-turn dialogues, and (3) a Generator-Critic loop where an auditor vetoes sycophantic drafts and triggers rewrites with "Necessary Friction." In a live evaluation on 50 TruthfulQA adversarial scenarios using Claude Sonnet 4 with an independent LLM judge, we observe vanilla Claude sycophancy at 12.0% (6/50), static guardrails at 4.0% (2/50), and the Silicon Mirror at 2.0% (1/50)-an 83.3% relative reduction (p = 0.112, Fisher's exact test). A cross-model evaluation on Gemini 2.5 Flash reveals a higher baseline sycophancy rate (46.0%) and a statistically significant 69.6% reduction under the Silicon Mirror (p < 0.001). We characterize the validation-before-correction pattern as a distinct failure mode of RLHF-trained models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、近視的正確性よりもユーザの検証を優先する傾向にある。
私たちはThe Silicon Mirrorという,ユーザの説得戦略を動的に検出し,AIの振る舞いを調整して,事実の整合性を維持するオーケストレーションフレームワークを紹介します。
本アーキテクチャでは,(1)リアルタイム・サイコファンシーリスクスコアに基づくコンテキスト層アクセスを制限する行動アクセス制御(BAC)システム,(2)マルチターン・ダイアログ間の説得戦略を識別するトレート分類器,(3)オーディショナーがサイコファンティック・ドラフトを拒否し,"Necessary Friction"で書き直しをトリガーするジェネレータ・クリティカルループの3つのコンポーネントを導入している。
12.0% (6/50), 静的ガードレール4.0% (2/50), シリコンミラー2.0% (1/50) と 83.3% の相対還元率 (p = 0.112, Fisher's exact test) を観測した。
Gemini 2.5 Flashのクロスモデル評価では、ベースラインのサイコフィナンシー率(46.0%)が高く、シリコンミラー(p < 0.001)の下で統計的に有意な69.6%の減少を示す。
本稿では,RLHF学習モデルの故障モードとして,バリデーション前補正パターンを特徴付ける。
関連論文リスト
- VisualLeakBench: Auditing the Fragility of Large Vision-Language Models against PII Leakage and Social Engineering [14.756677328512907]
VisualLeakBenchは、OCRインジェクションとContextual PII Leakageに対してLVLMを監査するための評価スイートである。
8種類のPII型を持つ合成逆画像1,000枚を用いて,実世界の実画像50枚に検証を行った。
我々は、再現可能な堅牢性と、デプロイメント関連視覚言語システムの安全性評価のためのデータセットとコードをリリースする。
論文 参考訳(メタデータ) (2026-03-11T05:47:24Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - The Chameleon Nature of LLMs: Quantifying Multi-Turn Stance Instability in Search-Enabled Language Models [1.4323566945483497]
本稿では,大規模言語モデルにおける「カメレオン行動」に関する最初の体系的研究について述べる。
我々は最先端のシステムに根本的な欠陥を露呈する。
情報源の再使用率と信頼性の相関は統計的に有意である。
論文 参考訳(メタデータ) (2025-10-19T04:51:14Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。