論文の概要: SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
- arxiv url: http://arxiv.org/abs/2601.06238v1
- Date: Thu, 08 Jan 2026 17:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.7083
- Title: SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
- Title(参考訳): SPINAL -- ニューラルアライメント層におけるスケーリング法則と優先度統合
- Authors: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das,
- Abstract要約: 本研究では,深度にまたがってアライメントが表現にどう影響するかを測定する診断手法であるSPINALを紹介する。
モデルファミリ全体で、DPOは最終デコーダブロックに集中する層ワイドキャリブレーション効果を生成する。
調整されたチェックポイントは、収縮の後期層の増加と輸送の円滑な減少を示し、厳密で安定した政策質量と一致している。
- 参考スコア(独自算出の注目度): 16.976750197698063
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.
- Abstract(参考訳): 直接選好最適化(DPO)は、RLHFの原則的かつスケーラブルな代替手段であり、大きな言語モデルをペアの選好から整列するが、内部幾何学的フットプリントは、監査の制限、チェックポイント比較、失敗予測など、未成熟のままである。
SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers) は,局所的な構造変化層を層単位で追跡することにより,各層間のアライメントがどのように表現を再現するかを測定する診断手法である。
モデルファミリ全体にわたって、DPOは最終デコーダブロック(しばしば21〜30層)に集中する層回りのキャリブレーション効果を生じる。
SPINALは各チェックポイントを深さトレース(層インデックス、収縮スコア、輸送スコア)としてエンコードする。
収縮スコアは、層のスペクトルの尾がどれだけ早く崩壊するか(いかに速い小さなモードが消えるか)を要約する。
トランスポートスコアは、境界重なりの測度を用いて、隣接する層間のトークン分布がどの程度シフトするかを要約する; 低い値は表現空間を通してより短く滑らかなステップを示す。
アライメントされたチェックポイントは、遅延層の収縮の上昇と輸送の円滑な減少を示し、密閉および安定化された政策質量と一致し、不整合モデルはより高い曲率、エントロピー、幾何的に不整合な深さ経路を辿る。
全体として、アライメントは幾何学的に局所化され、最終層は支配的な優先によって引き起こされる補正を符号化する。
SPINALは、このローカライゼーションを実用的な監査信号に変換し、アライメントが集中する場所、それがどれだけ強く現れるか、トレーニング中に不安定になり始めるかを定量化する。
関連論文リスト
- CLAPS: Posterior-Aware Conformal Intervals via Last-Layer Laplace [0.0]
CLAPSは,Last-Layer Laplace近似とスプリット・コンフォーマル・キャリブレーションを組み合わせた後向きコンフォメーション回帰法である。
結果のガウス後部から、CLAPSは、点推定だけでなく、整合度メートル法と完全な形状を整列する単純な二面後部CDFスコアを定義する。
このアライメントは、特にデータが不足し不確実性モデリングが問題となる中小データセットにおいて、同じ対象範囲での予測間隔を狭める。
論文 参考訳(メタデータ) (2025-12-01T07:58:21Z) - DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling [0.7866885337535715]
逆導拡散サンプリングは、しばしばターゲットクラスを達成するが、サンプルの品質は、逆制御された軌道と名目軌道とのずれが蓄積するにつれて低下する。
制御された(制御されていない)拡散過程間の経路空間Kullback-Leibler分散(path-KL)としてこの分解を定式化する。
この経路-KLの最小化は、ワッサーシュタイン距離とフレシェ・インセプション距離(FID)の両方の上限を同時に締め付け、対向制御エネルギーと知覚忠実度との接続を明らかにする。
論文 参考訳(メタデータ) (2025-12-01T00:15:05Z) - Gaussian Primitive Optimized Deformable Retinal Image Registration [19.882820812725523]
変形性網膜画像登録は、大きな同種領域とスパースだが重要な血管的特徴のため、非常に困難である。
これらの課題を克服するために、構造化メッセージパッシングを実行する新しい反復的フレームワークを導入する。
FIREデータセットの実験では、GPOはターゲット登録エラーを6.2,pxから2.4,pxに減らし、AUCを0.770から0.938に増やしている。
論文 参考訳(メタデータ) (2025-08-23T00:44:50Z) - SPARE: Symmetrized Point-to-Plane Distance for Robust Non-Rigid 3D Registration [77.13381026159111]
本研究では,SPAREを提案する。SPAREは,非剛性登録のための対称化点-平面間距離を用いた新しい定式化である。
提案手法は, 厳密でない登録問題の精度を大幅に向上し, 比較的高い解効率を維持する。
論文 参考訳(メタデータ) (2024-05-30T15:55:04Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Learning Signed Hyper Surfaces for Oriented Point Cloud Normal Estimation [53.19926259132379]
我々は,符号付きハイパー曲面の学習による点雲の向きの正規分布推定のためのSHS-Netと呼ばれる新しい手法を提案する。
符号付き超曲面は、局所的および大域的な情報を集約する高次元特徴空間において暗黙的に学習される。
注意重み付き正規予測モジュールをデコーダとして提案し,局所およびグローバル潜時符号を入力として向きの正規を推定する。
論文 参考訳(メタデータ) (2023-05-10T03:40:25Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。