論文の概要: Entropy-Based Measurement of Value Drift and Alignment Work in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.03047v1
- Date: Wed, 19 Nov 2025 17:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.42758
- Title: Entropy-Based Measurement of Value Drift and Alignment Work in Large Language Models
- Title(参考訳): エントロピーに基づく大規模言語モデルにおける値ドリフトとアライメント作業の測定
- Authors: Samih Fadli,
- Abstract要約: 大きな言語モデルの安全性の主な障害は、分散シフトによる価値の漂流、ジェイルブレイク攻撃、デプロイメントにおけるアライメントの遅さである。
我々はこのフレームワークを大規模言語モデルで運用する。
我々は5方向の行動分類を定義し、モデル転写物から倫理的エントロピーS(t)を推定するために分類器を訓練し、ベースおよび命令調整された変種に対するエントロピーダイナミクスを測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model safety is usually assessed with static benchmarks, but key failures are dynamic: value drift under distribution shift, jailbreak attacks, and slow degradation of alignment in deployment. Building on a recent Second Law of Intelligence that treats ethical entropy as a state variable which tends to increase unless countered by alignment work, we make this framework operational for large language models. We define a five-way behavioral taxonomy, train a classifier to estimate ethical entropy S(t) from model transcripts, and measure entropy dynamics for base and instruction-tuned variants of four frontier models across stress tests. Base models show sustained entropy growth, while tuned variants suppress drift and reduce ethical entropy by roughly eighty percent. From these trajectories we estimate an effective alignment work rate gamma_eff and embed S(t) and gamma_eff in a monitoring pipeline that raises alerts when entropy drift exceeds a stability threshold, enabling run-time oversight of value drift.
- Abstract(参考訳): 大規模な言語モデルの安全性は通常、静的なベンチマークで評価されるが、重要な障害は動的である。
最近のSecond Law of Intelligenceは、倫理的エントロピーを状態変数として扱い、アライメント作業に逆らわない限り増加する傾向にあるため、このフレームワークを大規模言語モデルで運用する。
我々は5方向の行動分類を定義し、モデル転写物から倫理的エントロピーS(t)を推定するために分類器を訓練し、ストレステストを通して4つのフロンティアモデルの基底および命令調整された変種に対するエントロピーダイナミクスを測定する。
ベースモデルはエントロピーの持続的な成長を示し、チューニングされた変種はドリフトを抑制し、倫理的エントロピーを約8%減少させる。
これらの軌道から、効率的なアライメント作業率 gamma_eff と S(t) と gamma_eff を推定し、エントロピードリフトが安定性閾値を超えると警告を発生させる監視パイプラインに組み込み、値ドリフトのリアルタイム監視を可能にする。
関連論文リスト
- Gradients Must Earn Their Influence: Unifying SFT with Generalized Entropic Objectives [22.29000001610794]
Supervised Fine-Tuning (SFT) の標準的な負の対数構造は、均一なトークンレベルの重み付けを適用する。
この剛性は2重の障害モードを生成する: (i)低確率目標を過度に強調することは、ノイズの監督の勾配を増幅し、頑健な事前を妨害し、 (ii)一様重み付けは、モデルが既に自信を持っているときに弱いシャープニングを与える。
既存の方法は可塑性の解決に失敗し、不安定なジレンマがしばしば有害なジレンマとともに必要な学習信号を抑圧する。
パラメータ自由度を変調する動的エントロピーファインチューニング(DEFT)を導入する。
論文 参考訳(メタデータ) (2026-02-11T22:56:43Z) - Adaptive Visual Autoregressive Acceleration via Dual-Linkage Entropy Analysis [50.48301331112126]
我々は,Visual AutoRegressive モデリングのためのトレーニング不要なトークン削減促進フレームワーク NOVA を提案する。
NOVAは、スケールエントロピー成長の屈折点をオンライン同定することにより、推論中のアクティベーションアクティベーションスケールを適応的に決定する。
実験と解析により、NOVAはシンプルで効果的なトレーニングフリー加速フレームワークとして評価される。
論文 参考訳(メタデータ) (2026-02-01T17:29:42Z) - EDIS: Diagnosing LLM Reasoning via Entropy Dynamics [3.858418431840288]
生成過程における信頼の時空間的進化は,集計統計単独よりも豊かな情報をもたらすことを示す。
本稿では,エントロピー進化における不安定性を定量化するための軌道レベルの指標であるエントロピーダイナミクス不安定スコア(textbfEDIS)を紹介する。
論文 参考訳(メタデータ) (2026-02-01T15:43:50Z) - Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference [1.7523718031184992]
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
論文 参考訳(メタデータ) (2026-01-30T14:47:18Z) - Entropy-Reservoir Bregman Projection: An Information-Geometric Unification of Model Collapse [3.533187668612022]
本稿では,これらの現象を統一する情報幾何学的枠組みであるEntropyReser Bregman Projection- ERBPを提案する。
我々の理論は崩壊に必要な条件、(ii)非言語エントロピーフロアを保証する十分な条件、(iii)サンプルサイズに依存する閉形式率をもたらす。
論文 参考訳(メタデータ) (2025-12-16T19:50:03Z) - Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文 参考訳(メタデータ) (2025-10-25T09:17:47Z) - Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective [11.65148836911294]
エントロピー崩壊は政策の多様性の急激な喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
最近のエントロピー・インターベンション法は、色覚エントロピーの崩壊を防ぐことを目的としているが、その基盤となるメカニズムは明らかになっていない。
エントロピー変化を考慮した再重み付け方式,すなわち,再重み付け(STEER)によるトークンレベルのエントロピーチェンジEの安定化を提案する。
論文 参考訳(メタデータ) (2025-10-11T10:17:38Z) - Control-Augmented Autoregressive Diffusion for Data Assimilation [17.305296093966803]
本稿では,ARDMを軽量コントローラで拡張するアモールト化フレームワークを提案する。
我々はこの枠組みをカオス偏微分方程式(PDE)に対するデータ同化(DA)の文脈で評価する。
提案手法は,DA推論をオンザフライ修正による単一前方ロールアウトに還元し,推論中に高価な随伴計算や最適化を回避する。
論文 参考訳(メタデータ) (2025-10-08T04:37:32Z) - CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention [24.71056659948577]
本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-08-14T18:40:34Z) - Entropy-Based Block Pruning for Efficient Large Language Models [81.18339597023187]
性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-04T03:42:34Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Improving Adversarial Robustness of DEQs with Explicit Regulations Along
the Neural Dynamics [26.94367957377311]
ディープ・平衡(DEQ)モデルは、従来のディープ・ネットワークの多重層積み重ねを単一層変換の固定点反復で置き換える。
既存の作業は、広く使われている対戦訓練(AT)フレームワークで一般的なDECモデルの堅牢性を改善するが、DECモデルの構造的特異性を利用するには至らなかった。
ニューラルダイナミクスに沿って入力を段階的に更新することで予測エントロピーを低減することを提案する。
我々の手法はDECモデルのロバスト性を大幅に向上させ、強力なディープネットワークベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-06-02T10:49:35Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。