論文の概要: The Realignment Problem: When Right becomes Wrong in LLMs
- arxiv url: http://arxiv.org/abs/2511.02623v1
- Date: Tue, 04 Nov 2025 14:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.080928
- Title: The Realignment Problem: When Right becomes Wrong in LLMs
- Title(参考訳): 配位問題:LLMにおける右の誤り
- Authors: Aakash Sen Sharma, Debdeep Sanyal, Vivek Srivastava, Shirish Karande, Murari Mandal,
- Abstract要約: 大規模な言語モデルと人間の価値の整合性は、安全なデプロイメントの中心であるが、現在のモデルは、進化する規範やポリシーに追随しない。
既存の未学習の手法は、正確なポリシー更新を有効にするのではなく、実用性を損なう鈍い手段として機能する。
本稿では,プログラミング政策問題として再認識する原則的アンラーニングの枠組みであるTRACEを紹介する。
- 参考スコア(独自算出の注目度): 6.8304813545377
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The alignment of Large Language Models (LLMs) with human values is central to their safe deployment, yet current practice produces static, brittle, and costly-to-maintain models that fail to keep pace with evolving norms and policies. This misalignment, which we term the Alignment-Reality Gap, poses a growing challenge for reliable long-term use. Existing remedies are inadequate: large-scale re-annotation is economically prohibitive, and standard unlearning methods act as blunt instruments that erode utility rather than enable precise policy updates. We introduce TRACE (Triage and Re-align by Alignment Conflict Evaluation), a framework for principled unlearning that reconceives re-alignment as a programmatic policy application problem. TRACE programmatically triages existing preference data against a new policy, identifies high-impact conflicts via a alignment impact score, and applies a hybrid optimization that cleanly inverts, discards, or preserves preferences while safeguarding model performance. Empirical results show that TRACE achieves robust re-alignment across diverse model families (Qwen2.5-7B, Gemma-2-9B, Llama-3.1-8B). On both synthetic benchmarks and the PKU-SafeRLHF dataset under complex policy shift, TRACE enforces new principles without degrading general capabilities. Our work establishes a scalable, dynamic, and cost-effective paradigm for maintaining LLM alignment, providing a foundation for sustainable and responsible AI deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)と人間の価値との整合性は、安全なデプロイメントの中心であるが、現在のプラクティスは、進化する規範やポリシーに追随しない静的で不安定で、メンテナンスにコストがかかるモデルを生成する。
アライメント・リアリティ・ギャップ(Alignment-Reality Gap)と呼ばれるこのミスアライメントは、信頼性のある長期使用において、ますます困難を呈している。
大規模な再注釈は経済的に禁止され、標準的なアンラーニング手法は、正確なポリシー更新を有効にするのではなく、実用性を損なう鈍い手段として機能する。
本稿では,プログラム型ポリシー適用問題として再アライメントを再認識する,原則付きアンラーニングの枠組みであるTRACE(Triage and Re-align by Alignment Conflict Evaluation)を紹介する。
TRACEは、新しいポリシーに対して既存の嗜好データをプログラム的にトリアージし、アライメントインパクトスコアを介してハイインパクトコンフリクトを識別し、モデルパフォーマンスを保護しながら、好むものをきれいに反転、破棄、保存するハイブリッド最適化を適用する。
実験の結果、TRACEは様々なモデルファミリー(Qwen2.5-7B、Gemma-2-9B、Llama-3.1-8B)で頑健な再配位を達成することが示された。
複雑なポリシーシフトの下で、合成ベンチマークとPKU-SafeRLHFデータセットの両方で、TRACEは一般的な能力を低下させることなく、新しい原則を適用している。
私たちの仕事は、LLMアライメントを維持するためのスケーラブルで動的で費用効率のよいパラダイムを確立し、持続的で責任のあるAIデプロイメントの基盤を提供します。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Dual Alignment Maximin Optimization for Offline Model-based RL [37.563771012143725]
オフラインの強化剤は、合成から現実の分布ミスマッチのため、重要な展開課題に直面します。
本稿では、まずモデル信頼性から、期待したリターンを最適化しながらポリシーの相違に焦点を移し、その後、自己整合的に合成データを組み込む。
これは、モデル環境ポリシーの一貫性と、合成およびデータのオフラインを保証する統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-02-02T16:47:35Z) - Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。
本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。