論文の概要: Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling
- arxiv url: http://arxiv.org/abs/2605.18838v1
- Date: Wed, 13 May 2026 03:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.65595
- Title: Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling
- Title(参考訳): Lyingはただのフェーズ:言語モデルのスケーリングにおける隠れアライメント遷移
- Authors: Adil Amin,
- Abstract要約: 16家系の63塩基モデルにおける推論と真理の結合度を測定した。
我々は、家族依存の臨界スケール(N_c$)以下の損失曲線を目に見えない体制変化を発見し、その上、彼らは協力する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling laws predict loss from compute but not how capabilities interact. We measure the coupling between reasoning and truthfulness across 63 base models from 16 families and find a regime change invisible to loss curves: below a family-dependent critical scale $N_c$, capabilities anticorrelate; above it, they cooperate. $N_c \approx 3.5$B parameters [2.9B, 13.4B] (bootstrap 95% CI), but model size is not the only variable that determines phase. Architecture, data curation, and training recipe each shift $N_c$ independently: curated training eliminated the coupling dip between Qwen generations ($0.025 \to 0.830$ at matched scale), Gemma-4 at 4B achieves coupling 0.871, characteristic of 13B+ standard-trained models, through distillation and architectural innovation, and Phi at 1B matches web-trained coupling at 10B through data curation alone. Width normalization eliminates the anticorrelation across all tested families, supporting an output-projection bottleneck. Internally, 38 of 40 models show zero competing attention heads. A sparse-regression ODE cross-predicts held-out Llama-2 at 5.6% error. The diagnostic requires no model internals -- only public benchmark scores across a model family. The cooperative regime extends to the frontier ($r = +0.72$, 34 models, 10 labs). Code, data, and an open-source activation-steering tool for any open-weight model are released alongside an interactive dashboard that diagnoses any model's coupling phase, suggests concrete interventions (data curation, width, benchmark rotation), and provides ODE scaling predictions, frontier diagnostics, and eigenstructure analysis: https://zehenlabs.com/cape/.
- Abstract(参考訳): スケーリング法則は計算から損失を予測するが、機能がどのように相互作用するかは予測しない。
我々は16の家系の63のモデルにおける推論と真理性の結合を測り、損失曲線に見えない状態の変化を見出した。
N_c \approx 3.5$Bパラメータ [2.9B, 13.4B] (bootstrap 95% CI) だが、フェーズを決定する変数はモデルのサイズだけではない。
アーキテクチャ、データキュレーション、トレーニングのレシピはそれぞれ独立して$N_c$をシフトする。 キュレートされたトレーニングは、Qwen世代間のカップリングディップ(0.025 \to 0.830$)を排除し、4BのGemma-4は、蒸留とアーキテクチャの革新を通じて13B以上の標準トレーニングモデルの特徴である0.871を達成し、1BのPhiは、データキュレーションだけで10BでWebトレーニングされたカップリングとマッチする。
幅の正規化は、テストされたすべての家族間の反相関を排除し、出力投影ボトルネックをサポートする。
内部では、40モデル中38モデルが、競合するアテンションヘッドをゼロにしている。
sparse-regression ODEはLlama-2を5.6%の誤差で予測する。
診断にはモデル内部は必要ありません。
協力体制はフロンティア(r = +0.72$、34モデル、10ラボ)にまで及んでいる。
任意のオープンウェイトモデルのコード、データ、オープンソースのアクティベーションステアリングツールが、インタラクティブダッシュボードとともにリリースされ、任意のモデルの結合フェーズを診断し、具体的な介入(データキュレーション、幅、ベンチマークローテーション)を提案し、ODEスケーリング予測、フロンティア診断、固有構造解析を提供する。
関連論文リスト
- The Growing Pains of Frontier Models: When Leaderboards Stop Separating and What to Measure Next [0.0]
リーダーボードは独立した軸上でフロンティアモデルをランク付けするが、機能強化やリリース間のトレードオフは明らかにしない。
我々はSWEベンチとGPQAダイアモンドスコアを集団結合傾向とリリース毎残差に分解する。
我々は,3段階のプレイブック(位置,診断,回転),ラベルごとの測定・優先度表,そして7つの偽造予測を提供する。
論文 参考訳(メタデータ) (2026-05-13T03:19:38Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - Compact SO(3) Equivariant Atomistic Foundation Models via Structural Pruning [4.793059213046564]
本稿では,SO(3)同変原子基盤モデルの構造解析法を提案する。
プルーニングはチャネルと順序次元に沿って適用され、各既約表現は完全なブロックとして保持または削除される。
プルーニングされたMACE-MPモデルは、マトベンチディスカバリーのリーダーボード上の9つの指標のうち7つで、公式のオフスクラッチトレーニングされた小さなモデルよりも優れています。
論文 参考訳(メタデータ) (2026-05-09T11:07:03Z) - Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents [0.4666493857924357]
複雑なマルチステップ環境において,推論時足場のみに追加のトレーニング計算を使わずに,小さなモデルの性能を向上させることができるかどうかを検討した。
我々は,AppWorldベンチマークのQwen3-8Bを,完全精度と4ビット量子化構成の両方で評価した。
本格的な推測では、私たちの足場付き8Bモデルは、オリジナルのAppWorld評価からDeepSeek-Coder 33Bインストラクション(7.1%)を上回っています。
論文 参考訳(メタデータ) (2026-04-13T13:40:33Z) - Learn by Surprise, Commit by Proof [0.0]
本稿では,自律的知識獲得のための自己学習後フレームワークを提案する。
通路が異常に高いパートーケン損失を発生させると、L SCPはそれをフラグ化し、モデルに自身の知識を明確にさせるQ&A連鎖を生成する。
学習強度は1つのパラメータ$r$で管理される。
論文 参考訳(メタデータ) (2026-04-02T12:17:10Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Silhouette-based Gait Foundation Model [56.27974816297294]
統一された歩行基盤モデルを構築するには、スケーラビリティと一般化の2つの長年の障壁に対処する必要がある。
私たちは、歩行理解のための最初のスケーラブルでセルフ教師付き事前学習フレームワークであるFoundationGaitを紹介します。
論文 参考訳(メタデータ) (2025-11-30T01:53:41Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。