論文の概要: Entropy-Based Measurement of Value Drift and Alignment Work in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.03047v1
- Date: Wed, 19 Nov 2025 17:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.42758
- Title: Entropy-Based Measurement of Value Drift and Alignment Work in Large Language Models
- Title(参考訳): エントロピーに基づく大規模言語モデルにおける値ドリフトとアライメント作業の測定
- Authors: Samih Fadli,
- Abstract要約: 大きな言語モデルの安全性の主な障害は、分散シフトによる価値の漂流、ジェイルブレイク攻撃、デプロイメントにおけるアライメントの遅さである。
我々はこのフレームワークを大規模言語モデルで運用する。
我々は5方向の行動分類を定義し、モデル転写物から倫理的エントロピーS(t)を推定するために分類器を訓練し、ベースおよび命令調整された変種に対するエントロピーダイナミクスを測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model safety is usually assessed with static benchmarks, but key failures are dynamic: value drift under distribution shift, jailbreak attacks, and slow degradation of alignment in deployment. Building on a recent Second Law of Intelligence that treats ethical entropy as a state variable which tends to increase unless countered by alignment work, we make this framework operational for large language models. We define a five-way behavioral taxonomy, train a classifier to estimate ethical entropy S(t) from model transcripts, and measure entropy dynamics for base and instruction-tuned variants of four frontier models across stress tests. Base models show sustained entropy growth, while tuned variants suppress drift and reduce ethical entropy by roughly eighty percent. From these trajectories we estimate an effective alignment work rate gamma_eff and embed S(t) and gamma_eff in a monitoring pipeline that raises alerts when entropy drift exceeds a stability threshold, enabling run-time oversight of value drift.
- Abstract(参考訳): 大規模な言語モデルの安全性は通常、静的なベンチマークで評価されるが、重要な障害は動的である。
最近のSecond Law of Intelligenceは、倫理的エントロピーを状態変数として扱い、アライメント作業に逆らわない限り増加する傾向にあるため、このフレームワークを大規模言語モデルで運用する。
我々は5方向の行動分類を定義し、モデル転写物から倫理的エントロピーS(t)を推定するために分類器を訓練し、ストレステストを通して4つのフロンティアモデルの基底および命令調整された変種に対するエントロピーダイナミクスを測定する。
ベースモデルはエントロピーの持続的な成長を示し、チューニングされた変種はドリフトを抑制し、倫理的エントロピーを約8%減少させる。
これらの軌道から、効率的なアライメント作業率 gamma_eff と S(t) と gamma_eff を推定し、エントロピードリフトが安定性閾値を超えると警告を発生させる監視パイプラインに組み込み、値ドリフトのリアルタイム監視を可能にする。
関連論文リスト
- Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文 参考訳(メタデータ) (2025-10-25T09:17:47Z) - Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective [11.65148836911294]
エントロピー崩壊は政策の多様性の急激な喪失であり、探検と爆発の不均衡から起因し、一般化の欠如につながっている。
最近のエントロピー・インターベンション法は、色覚エントロピーの崩壊を防ぐことを目的としているが、その基盤となるメカニズムは明らかになっていない。
エントロピー変化を考慮した再重み付け方式,すなわち,再重み付け(STEER)によるトークンレベルのエントロピーチェンジEの安定化を提案する。
論文 参考訳(メタデータ) (2025-10-11T10:17:38Z) - Control-Augmented Autoregressive Diffusion for Data Assimilation [17.305296093966803]
本稿では,ARDMを軽量コントローラで拡張するアモールト化フレームワークを提案する。
我々はこの枠組みをカオス偏微分方程式(PDE)に対するデータ同化(DA)の文脈で評価する。
提案手法は,DA推論をオンザフライ修正による単一前方ロールアウトに還元し,推論中に高価な随伴計算や最適化を回避する。
論文 参考訳(メタデータ) (2025-10-08T04:37:32Z) - CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention [24.71056659948577]
本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-08-14T18:40:34Z) - Entropy-Based Block Pruning for Efficient Large Language Models [81.18339597023187]
性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-04T03:42:34Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Improving Adversarial Robustness of DEQs with Explicit Regulations Along
the Neural Dynamics [26.94367957377311]
ディープ・平衡(DEQ)モデルは、従来のディープ・ネットワークの多重層積み重ねを単一層変換の固定点反復で置き換える。
既存の作業は、広く使われている対戦訓練(AT)フレームワークで一般的なDECモデルの堅牢性を改善するが、DECモデルの構造的特異性を利用するには至らなかった。
ニューラルダイナミクスに沿って入力を段階的に更新することで予測エントロピーを低減することを提案する。
我々の手法はDECモデルのロバスト性を大幅に向上させ、強力なディープネットワークベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-06-02T10:49:35Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。