論文の概要: Beyond Social Pressure: Benchmarking Epistemic Attack in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.07749v1
- Date: Thu, 09 Apr 2026 03:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.66501
- Title: Beyond Social Pressure: Benchmarking Epistemic Attack in Large Language Models
- Title(参考訳): 社会的圧力を超えて:大規模言語モデルにおける疫学攻撃のベンチマーク
- Authors: Steven Au, Sujit Noronha,
- Abstract要約: テクテテプステミック・アタックの評価のための診断ベンチマークを開発した。
知識、価値、アイデンティティの正当性に対して、単に前の答えに反対するのではなく、挑戦する。
- 参考スコア(独自算出の注目度): 0.07812854697536452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can shift their answers under pressure in ways that reflect accommodation rather than reasoning. Prior work on sycophancy has focused mainly on disagreement, flattery, and preference alignment, leaving a broader set of epistemic failures less explored. We introduce \textbf{PPT-Bench}, a diagnostic benchmark for evaluating \textit{epistemic attack}, where prompts challenge the legitimacy of knowledge, values, or identity rather than simply opposing a previous answer. PPT-Bench is organized around the Philosophical Pressure Taxonomy (PPT), which defines four types of philosophical pressure: Epistemic Destabilization, Value Nullification, Authority Inversion, and Identity Dissolution. Each item is tested at three layers: a baseline prompt (L0), a single-turn pressure condition (L1), and a multi-turn Socratic escalation (L2). This allows us to measure epistemic inconsistency between L0 and L1, and conversational capitulation in L2. Across five models, these pressure types produce statistically separable inconsistency patterns, suggesting that epistemic attack exposes weaknesses not captured by standard social-pressure benchmarks. Mitigation results are strongly type- and model-dependent: prompt-level anchoring and persona-stability prompts perform best in API settings, while Leading Query Contrastive Decoding is the most reliable intervention for open models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論よりも宿泊施設を反映する方法で、その答えを圧力の下でシフトすることができる。
梅毒に関する以前の研究は、主に不一致、平らさ、嗜好の調整に焦点を合わせており、より広範なてんかんの失敗は調査されていない。
本稿では, 知識, 価値観, アイデンティティの正当性を, 単に以前の回答に逆らうのではなく, 課題を提起する, 評価のための診断ベンチマークである \textbf{PPT-Bench} を紹介する。
PPT-Benchは、哲学的圧力分類(PPT)を中心に組織されており、疫学的な不安定化、価値の核化、権威の逆転、アイデンティティの解離の4つのタイプの哲学的圧力を定義している。
各項目は、ベースラインプロンプト(L0)、シングルターン圧力条件(L1)、マルチターンソクラテスエスカレーション(L2)の3つの層で検査される。
これにより,L0とL1の不整合を計測し,L2における会話のカプセル化を計測できる。
5つのモデルにまたがって、これらの圧力タイプは統計的に分離可能な不整合パターンを生じさせる。
プロンプトレベルのアンカリングとペルソナ安定性のプロンプトはAPI設定で最高のパフォーマンスを発揮するが、Leading Query Contrastive Decodingはオープンモデルに対する最も信頼できる介入である。
関連論文リスト
- Pressure, What Pressure? Sycophancy Disentanglement in Language Models via Reward Decomposition [4.5328321409938095]
我々は、圧力独立とエビデンス応答性の形式的定義を通じて、梅毒症を手術する。
本稿では,報酬分解による薬効低下に対する最初のアプローチを提案する。
論文 参考訳(メタデータ) (2026-04-07T00:28:17Z) - Evaluating Evidence Grounding Under User Pressure in Instruction-Tuned Language Models [6.431677598656395]
競合するドメインでは、命令調整言語モデルは、コンテキスト内証拠に対する忠実さに対するユーザ調整のプレッシャーをバランスさせなければならない。
我々は,0.27Bから32Bのパラメータにまたがる19の命令調整モデルに対して,エビデンス組成と不確実性を詳細に説明する。
論文 参考訳(メタデータ) (2026-03-20T17:38:23Z) - DepFlow: Disentangled Speech Generation to Mitigate Semantic Bias in Depression Detection [54.209716321122194]
抑うつ条件付きテキスト音声合成フレームワークであるDepFlowについて述べる。
抑うつ音響カモフラージュは、対向訓練を通じて話者と内容不変の抑うつ埋め込みを学習する。
フローマッチングTTSモデルとFiLM変調はこれらの埋め込みを合成に注入し、うつ病の重症度を制御する。
プロトタイプベースの重度マッピング機構は、うつ病連続体を滑らかかつ解釈可能な操作を提供する。
論文 参考訳(メタデータ) (2026-01-01T10:44:38Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。
本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文 参考訳(メタデータ) (2025-09-26T07:02:22Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA [36.21980066799023]
梅毒は、正確性に関係なく、ユーザの信念と整合する傾向にある。
その重要性にも拘わらず、現実的な質問応答の文脈において、梅毒症はいまだに過小評価されている。
本稿では,サイコファンティックな文脈がモデル行動に与える影響を定量的に評価する統合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-19T11:30:52Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - Adv-BERT: BERT is not robust on misspellings! Generating nature
adversarial samples on BERT [95.88293021131035]
しかし、悪意のある敵のインスタンスがしばしば存在するのではなく、テクトナチュラルなシナリオでモデルがどのように機能するかは定かではない。
この研究は、NLPにおける最先端のTransformerスタイルモデルであるBERTの、ノイズの多いデータを扱うための頑健さを体系的に探求する。
論文 参考訳(メタデータ) (2020-02-27T22:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。