論文の概要: Decomposing Factual Sycophancy in Language Models: How Size and Instruction Tuning Shape Robustness
- arxiv url: http://arxiv.org/abs/2606.06306v1
- Date: Thu, 04 Jun 2026 15:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.914159
- Title: Decomposing Factual Sycophancy in Language Models: How Size and Instruction Tuning Shape Robustness
- Title(参考訳): 言語モデルにおけるFactual Sycophancyの分解 : サイズとインストラクション・チューニングのロバスト性
- Authors: Victor De Marez, Luna De Bruyne, Walter Daelemans,
- Abstract要約: フリップレートは、そのベースライン選好の強さ(真実のマージン)と、どのくらい圧力がそれを変えるか(操作感度)の2つのメカニズムを説明します。
我々は,これらのチャネルに現実の梅毒を分解し,56個のオープンウェイトモデルでサイズと指導指導の効果を分離する。
脆弱性は主にサイズによって管理されるが、命令チューニングはサイズがどのように振る舞うかを変える。
- 参考スコア(独自算出の注目度): 1.563935067745458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Factual sycophancy occurs when a language model abandons a correct, verifiable answer under social pressure. Because a flip occurs only when pressure toward a false answer exceeds the model's neutral preference for the truth, flip rates conflate two mechanisms: the strength of that baseline preference (truth margin), and how far pressure shifts it (manipulation sensitivity). We decompose factual sycophancy into these channels and use them to separate the effects of size and instruction tuning across 56 open-weight models spanning 0.3B-32B parameters and 13 manipulation types. We find that vulnerability is governed mainly by size, but instruction tuning changes how size acts: small instruction-tuned models can become less robust, whereas large instruction-tuned models usually become more robust. Instruction tuning primarily increases truth margin, but its behavioral effect depends on manipulation type. Scaling also changes the two channels differently: base models gain margin but become mildly more manipulation-sensitive, whereas instruction-tuned models gain margin faster and become less sensitive. Factual sycophancy is therefore not a single scalar property. Evaluations should report channel-specific, manipulation-specific, and size-conditioned robustness rather than flip rates alone.
- Abstract(参考訳): 言語モデルが社会的プレッシャーの下で正しい検証可能な解答を放棄した場合に、ファクチュアル・サイコファシーが発生する。
フリップは、偽答に対する圧力がモデルの真理に対する中立的な嗜好を超える場合にのみ発生するので、フリップレートは、そのベースラインの選好の強さ(真理マージン)と、その圧力がどこまでそれを変えるか(マニピュレーション感度)という2つのメカニズムを詳述する。
実例をこれらのチャネルに分解し,0.3B-32Bパラメータと13種類の操作型にまたがる56個のオープンウェイトモデルに対して,サイズと指導指導の効果を分離する。
脆弱性は主にサイズによって制御されるが、命令チューニングはサイズがどのように振る舞うかを変える: 命令調整された小さなモデルはより堅牢になるが、命令調整された大きなモデルはより堅牢になる。
命令チューニングは、主に真理マージンを増加させるが、その行動効果は操作タイプに依存する。
ベースモデルのマージンは向上するが、微妙に操作に敏感になる一方、命令調整されたモデルはマージンが速くなり、感度が低下する。
したがって、ファクチュアル・サイコファンシーは単一のスカラーの性質ではない。
評価は、フリップレート単独ではなく、チャネル固有、操作固有、サイズ条件付きロバスト性を報告すべきである。
関連論文リスト
- Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs [0.17188280334580197]
言語モデルは命令に従うように訓練されているが、強力なパターン補完器でもある。
我々は、ターゲットTで動作するためのユーザ命令がNのハードコードアシスタントによって反対される会話を構築し、競合するパターンPを示す。
この設定では、最大50ターンで13のモデルと16の異なる命令で命令追従率(IF)を測定します。
論文 参考訳(メタデータ) (2026-05-19T18:32:20Z) - Better and Worse with Scale: How Contextual Entrainment Diverges with Model Size [44.634649562117744]
我々は、この明らかなパラドックスを、文脈的エントレインメントのための最初のスケーリング法則によって定式化する。
エントレメントは予測可能なパワーロースケーリングに従っているが、コンテキストタイプによっては逆の傾向がある。
具体的には、最大のモデルは、最小の4倍の偽情報に対する耐性がある。
論文 参考訳(メタデータ) (2026-04-14T20:12:05Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Superposition Yields Robust Neural Scaling [22.05527470952902]
表現重畳は、LLMが次元よりも多くの特徴を表現していることを意味するが、損失や神経スケーリングの原因となる重要な要因であることを示す。
結果は,表現重畳をニューラルスケーリング法則の中心的要因として認識し,ニューラルスケーリング法則がいつ改善され,いつ崩壊するかといった問題に対する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T16:18:13Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Scaling Laws vs Model Architectures: How does Inductive Bias Influence
Scaling? [91.78878523252897]
本稿では,10種類のモデルアーキテクチャのスケーリング挙動の系統的研究を行う。
アーキテクチャはスケーリングを行う上で重要な考慮事項であり、最高のパフォーマンスモデルが異なるスケールで変動可能であることを示す。
論文 参考訳(メタデータ) (2022-07-21T15:50:22Z) - On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-10-06T10:54:00Z) - Do Wider Neural Networks Really Help Adversarial Robustness? [92.8311752980399]
モデルロバスト性は自然精度と摂動安定性のトレードオフと密接に関係していることを示す。
本稿では,ワイドモデル上でラムダ$を適応的に拡大するWidth Adjusted Regularization(WAR)手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T04:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。