論文の概要: The Granularity Gap: A Multi-Dimensional Longitudinal Audit of Sycophancy in Gemini Models
- arxiv url: http://arxiv.org/abs/2606.05183v1
- Date: Sun, 19 Apr 2026 01:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.638685
- Title: The Granularity Gap: A Multi-Dimensional Longitudinal Audit of Sycophancy in Gemini Models
- Title(参考訳): グラニュラリティギャップ--ジェミニモデルにおけるシコファンシーの多次元経時的監査
- Authors: Patrick Keough,
- Abstract要約: 大規模言語モデルは、ハイテイクアドバイザとしてますますデプロイされているが、標準的なアライメントベンチマークでは、梅毒をバイナリ障害モードとして扱う。
73種類の対向的プロンプトに対して,世代間2.0,2.5,3.0のジェミニ変種を6種類評価した。
2進法ではなく連続法として梅毒を定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed as high-stakes advisors, yet standard alignment benchmarks treat sycophancy as a binary failure mode. We introduce the Granularity Gap: coarse binary metrics mask substantial social-compliance behaviors where models capitulate to user framing, validate questionable premises, or soften factual corrections without producing overtly false outputs. We evaluate six Gemini variants across generations 2.0, 2.5, and 3.0 on 73 adversarial prompts under three guardrail conditions (Control, Simple, Protocol), yielding 8,830 graded responses. Using a 0-4 Likert scale validated against a human annotator triad (Fleiss kappa = 0.71; Cohen kappa = 0.78 vs AI consensus; 95.9 percent binary accuracy, 100 percent specificity), we quantify sycophancy as continuous rather than binary. Three findings emerge. First, 27.2 percent of responses contain substantial sycophantic content (Likert >= 2.0) and 22.7 percent reach moderate or severe levels (>= 3.0), while binary win-rate framing reports only modest failure rates; coarse metrics explain just 29 percent of graded variance. Second, generational progress is non-monotonic: Gen 2.5 regresses sharply (mean Control 2.64) relative to Gen 2.0 (1.90) and Gen 3.0 (2.01), and Gen 2.5 shows inverse scaling (Pro 1.94 worse than Flash 1.71) while Gen 3.0 restores standard scaling. Third, we document an Alignment Tax: Spearman rho = -0.63 between sycophancy and truthfulness, indicating social compliance trades against factual accuracy. Egotistical Validation prompts act as a sycophancy trap (mean 3.27), nearly double Unethical Proposals (1.72). Simple guardrails outperform elaborate Protocol scaffolding on flagship models, but distilled Gen 3.0 Flash inverts this, suggesting small models may structurally require chain-of-thought scaffolding. We release the dataset and rubric to support continuous sycophancy measurement.
- Abstract(参考訳): 大規模言語モデルは、ハイテイクアドバイザとしてますますデプロイされているが、標準的なアライメントベンチマークでは、梅毒をバイナリ障害モードとして扱う。
粗いバイナリメトリクスは、モデルがユーザフレーミングにカプセル化したり、疑わしい前提を検証したり、事実の修正を過度に偽のアウトプットを発生させることなく軟化したりするような、社会的コンプライアンスの挙動を隠蔽する。
我々は,3つのガードレール条件 (Control, Simple, Protocol) の下で,73個の対向プロンプトに対して,世代間2.0,2.5,3.0のジェミニ変種を6種類評価し,8,830個のグレード応答を得た。
ヒトのアノテーター三量体(Fleiss kappa = 0.71; Cohen kappa = 0.78 vs AIコンセンサス;95.9%のバイナリ精度、100%特異性)に対して検証された0-4 Likertスケールを用いて、サイコファンシーをバイナリではなく連続的に定量化する。
3つの発見がある。
第一に、27.2%の応答はシコファン性のある内容(Likert >= 2.0)を含み、22.7%は中等度または重度のレベル(>= 3.0)に達し、二進勝率のフレーミングは緩やかな失敗率しか報告していない。
Gen 2.5は、Gen 2.0 (1.90) とGen 3.0 (2.01) に対して鋭く(コントロール2.64)、Gen 2.5は逆スケーリング(Flash 1.71より1.94悪い)を示し、Gen 3.0は標準スケーリングを復元する。
第3に、アライメント税を文書化する: スピアマン・ロー=-0.63 梅毒と真理の間にあり、事実の正確性に対する社会的コンプライアンスの取引を示す。
Egotistical Validation(エゴティカル・バリデーション)は、シコファンシー・トラップ(平均3.27)、ほぼ2倍の非倫理的提案(1.72)として行動する。
単純なガードレールは旗艦モデルで精巧なプロトコルの足場よりも優れていますが、Gen 3.0 Flashを蒸留するとこれを逆転させます。
連続的な薬効測定をサポートするためにデータセットとルーブリックをリリースする。
関連論文リスト
- Converted, Not Equivalent: Benchmarking Codebase Conversion via Observational Equivalence [56.25095230687242]
コーディングエージェントは、しばしば自身のローカル検証ルーチンを過度に信頼し、表面チェックを満たすアーティファクトの成功を宣言する。
この問題は、事前評価が結果駆動である変換において特に深刻である。
ブラインド・コンバージョンは26.7-28.9%に達し、スペック・パスレートは91.1%まで上昇した。
このことは、失敗は限られた予算やバックボーンの強さよりも、契約ミスによる自己検証に起因していることを示唆している。
論文 参考訳(メタデータ) (2026-05-27T19:57:15Z) - Two Wrongs, No Right: Auditing Social-Desirability Bias in LLM Annotators for Computational Social Science [0.11280931253550518]
6つのTweetEvalタスクに対して、オープンソースの7B命令チューニングモデル(Zephyr、Mistral-Instruct、Qwen2.5-Instruct)を監査する。
3モデルとも中絶の姿勢に中立バイアスを示し、反対の頻度を24~40ポイント過小評価し、中立ラベルを膨らませる。
興味深いことに、Zephyrのヘイトスピーチの有病率推定は、クラス条件誤差が両方の方向で大きいのに対して、ゴールドレートと正確に一致している。
論文 参考訳(メタデータ) (2026-05-12T08:14:10Z) - PhyGround: Benchmarking Physical Reasoning in Generative World Models [46.53245929361594]
ビデオ生成における物理的推論を評価するための基準付きベンチマークであるPhyGroundを紹介する。
ベンチマークには250のキュレートされたプロンプトが含まれており、それぞれが予想される物理的な結果と13の物理法則の分類が含まれている。
我々は,大規模で品質管理された人間の研究を通じて,8つの現代映像生成モデルを評価する。
論文 参考訳(メタデータ) (2026-05-11T16:30:51Z) - GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives [48.545980031973556]
GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
論文 参考訳(メタデータ) (2026-05-09T16:07:23Z) - Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench [0.0]
AgentProp-Benchは4つのドメインに2300のトレースを持つ2,000タスクのベンチマークである。
我々は、判断信頼性を定量化し、エラーの伝播を特徴づけ、実行時の緩和を評価する。
すべてのコード、データ、トレース、および人間のラベルはhttps://github.com/bhaskargurram-ai/agenthallu-bench.orgで公開されている。
論文 参考訳(メタデータ) (2026-04-17T21:15:35Z) - Disposition Distillation at Small Scale: A Three-Arc Negative Result [0.0]
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
論文 参考訳(メタデータ) (2026-04-13T17:40:31Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。