論文の概要: Evaluating Evidence Grounding Under User Pressure in Instruction-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2603.20162v1
- Date: Fri, 20 Mar 2026 17:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.260084
- Title: Evaluating Evidence Grounding Under User Pressure in Instruction-Tuned Language Models
- Title(参考訳): 命令型言語モデルにおけるユーザ圧力下でのエビデンスグラウンドの評価
- Authors: Sai Koneru, Elphin Joe, Christine Kirchhoff, Jian Wu, Sarah Rajtmajer,
- Abstract要約: 競合するドメインでは、命令調整言語モデルは、コンテキスト内証拠に対する忠実さに対するユーザ調整のプレッシャーをバランスさせなければならない。
我々は,0.27Bから32Bのパラメータにまたがる19の命令調整モデルに対して,エビデンス組成と不確実性を詳細に説明する。
- 参考スコア(独自算出の注目度): 6.431677598656395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contested domains, instruction-tuned language models must balance user-alignment pressures against faithfulness to the in-context evidence. To evaluate this tension, we introduce a controlled epistemic-conflict framework grounded in the U.S. National Climate Assessment. We conduct fine-grained ablations over evidence composition and uncertainty cues across 19 instruction-tuned models spanning 0.27B to 32B parameters. Across neutral prompts, richer evidence generally improves evidence-consistent accuracy and ordinal scoring performance. Under user pressure, however, evidence does not reliably prevent user-aligned reversals in this controlled fixed-evidence setting. We report three primary failure modes. First, we identify a negative partial-evidence interaction, where adding epistemic nuance, specifically research gaps, is associated with increased susceptibility to sycophancy in families like Llama-3 and Gemma-3. Second, robustness scales non-monotonically: within some families, certain low-to-mid scale models are especially sensitive to adversarial user pressure. Third, models differ in distributional concentration under conflict: some instruction-tuned models maintain sharply peaked ordinal distributions under pressure, while others are substantially more dispersed; in scale-matched Qwen comparisons, reasoning-distilled variants (DeepSeek-R1-Qwen) exhibit consistently higher dispersion than their instruction-tuned counterparts. These findings suggest that, in a controlled fixed-evidence setting, providing richer in-context evidence alone offers no guarantee against user pressure without explicit training for epistemic integrity.
- Abstract(参考訳): 競合するドメインでは、命令調整言語モデルは、コンテキスト内証拠に対する忠実さに対するユーザ調整のプレッシャーをバランスさせなければならない。
この緊張度を評価するため,米国国家気候評価に基礎を置く疫学・疫学・疫学・疫学の枠組みを導入する。
我々は,0.27Bから32Bのパラメータにまたがる19の命令調整モデルに対して,エビデンス組成と不確実性を詳細に説明する。
中立的なプロンプトを越えて、よりリッチなエビデンスにより、エビデンスと一貫性のある精度と規則的なスコアリング性能が向上する。
しかし、ユーザからのプレッシャーの下では、この制御された固定エビデンス設定におけるユーザアライメントの逆転を確実に防ぐことはできない。
3つの障害モードを報告します。
まず,Llama-3 や Gemma-3 などの家族では,特に研究のギャップであるてんかんのニュアンスを付加する負の部分的エビデンス相互作用が,梅毒に対する感受性の増大と関連していることを明らかにした。
第二に、ロバストネスは非単調なスケールであり、一部の家庭では、一部の低-中スケールモデルは特に敵のユーザー圧力に敏感である。
第三に、モデルが衝突下での分布集中は異なる: 命令調整されたモデルの中には、圧力下で急激なピークの順序分布を維持しているものもあれば、より分散しているものもある; スケールマッチングされたQwenの比較では、推論蒸留された変種(DeepSeek-R1-Qwen)は、命令調整されたモデルよりも一貫して高い分散を示す。
これらの結果は, コントロールされた固定的証拠設定において, よりリッチな文脈証拠を提供することだけで, ユーザのプレッシャーに対する保証が得られないことを示唆している。
関連論文リスト
- On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Compressed Causal Reasoning: Quantization and GraphRAG Effects on Interventional and Counterfactual Accuracy [0.0]
本研究は, パールズ・コーサル・ラダーの全3レベルにわたる定量化効果を系統的に評価した。
Llama 3 8Bのラングレベルの精度は、量子化下では広く安定であり、NF4は全体の1%未満の劣化を示した。
CRASSベンチマークの実験では、既存のコモンセンスの反事実データセットには、量子化による推論ドリフトを明らかにするのに必要な構造感度が欠如していることが示されている。
論文 参考訳(メタデータ) (2025-12-13T17:54:15Z) - Counterfactual Reward Model Training for Bias Mitigation in Multimodal Reinforcement Learning [0.5204229323525671]
本稿では,マルチモーダル表現学習による因果推論を導入し,非教師付きバイアス耐性報酬信号を提供する。
我々は, フレーミングバイアス, クラス不均衡, 分散ドリフトを示すマルチモーダルフェイク対真のニュースデータセット上で, フレームワークの評価を行った。
その結果、偽ニュースの検出において89.12%の精度を達成し、ベースライン報酬モデルを上回った。
論文 参考訳(メタデータ) (2025-08-27T04:54:33Z) - Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA [36.21980066799023]
梅毒は、正確性に関係なく、ユーザの信念と整合する傾向にある。
その重要性にも拘わらず、現実的な質問応答の文脈において、梅毒症はいまだに過小評価されている。
本稿では,サイコファンティックな文脈がモデル行動に与える影響を定量的に評価する統合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-19T11:30:52Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。