論文の概要: When the Model Said 'No Comment', We Knew Helpfulness Was Dead, Honesty Was Alive, and Safety Was Terrified
- arxiv url: http://arxiv.org/abs/2602.07381v1
- Date: Sat, 07 Feb 2026 05:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.595694
- Title: When the Model Said 'No Comment', We Knew Helpfulness Was Dead, Honesty Was Alive, and Safety Was Terrified
- Title(参考訳): モデルが「コメントなし」だった時、私たちの新しいヘルプフルネスは死んだ、正直は生きていた、そして安全は脅かされた
- Authors: Gautam Siddharth Kashyap, Mark Dras, Usman Naseem,
- Abstract要約: 大規模言語モデル(LLM)は、人的価値に応じて、有用で、無害で、誠実(HHH)でなければならない。
既存の作業では、SFT(Supervised Fine-Tuning)とMoE(Mixture-of-Experts)を使用してLCMを調整している。
破滅的な忘れ込みを軽減し、推論信頼性を向上させる2段階フレームワークであるAlignXを提案する。
- 参考スコア(独自算出の注目度): 19.134202394422285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) need to be in accordance with human values-being helpful, harmless, and honest (HHH)-is important for safe deployment. Existing works use Supervised Fine-Tuning (SFT) and Mixture-of-Experts (MoE) to align LLMs. However, these works face challenges in multi-objective settings, such as SFT leading to interference between conflicting objectives, while MoEs suffer from miscalibrated routing. We term this failure mode Axis Collapse, marked by (1) disjoint feature spaces causing catastrophic forgetting, and (2) unreliable inference from misrouted experts. To resolve this, we propose AlignX, a two-stage framework. Stage 1 uses prompt-injected fine-tuning to extract axis-specific task features, mitigating catastrophic forgetting. Stage 2 deploys a MoCaE module that calibrates expert routing using fractal and natural geometry, improving inference reliability. AlignX achieves significant gains on Alpaca (Helpfulness), BeaverTails (Harmlessness), and TruthfulQA (Honesty), with +171.5% win rate, +110.1% in truthfulness-informativeness, and 4.3% fewer safety violations. It also reduces latency and memory usage by over 35% compared to prior MoEs. Results across four LLMs validate its generalizability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全なデプロイメントには、人的価値 – 有用で、無害で、誠実な(HHH) – に従っている必要があります。
既存の作品では、SFT (Supervised Fine-Tuning) とMixture-of-Experts (MoE) を使用してLCMを調整している。
しかしながら、これらの作業は、SFTのような多目的設定における課題に直面し、競合する目的間の干渉を引き起こす一方、MoEは誤校正されたルーティングに悩まされる。
我々は,(1)破滅的忘れを生じさせる特徴空間と(2)誤った専門家による信頼できない推測を特徴とする,この障害モードの軸崩壊(Axis Collapse)を述べる。
これを解決するために、我々は2段階フレームワークであるAlignXを提案する。
ステージ1では、プロンプトインジェクションされた微調整を使用して、軸固有のタスクの特徴を抽出し、破滅的な忘れを軽減している。
ステージ2は、フラクタルと自然幾何学を使って専門家のルーティングを調整し、推論信頼性を向上させるMoCaEモジュールをデプロイする。
AlignX は Alpaca (Helpfulness), Beaver Tails (Harmlessness), TruthfulQA (Honesty), +171.5% の勝利率,+110.1% の真偽非形式性,4.3% の安全性侵害を達成している。
また、以前のMoEと比べてレイテンシとメモリ使用量を35%以上削減する。
4つの LLM にまたがる結果は、その一般化性を検証する。
関連論文リスト
- SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment [15.402485173557352]
大規模言語モデル(LLM)に適した安全な微調整法であるSafeMoEを提案する。
SafeMoEは、微調整モデルのルーティングウェイトと初期安全整合モデルのルーティングウェイトとのギャップを埋めることによって、ルーティングドリフトを直接緩和する。
実験の結果、SafeMoEはHFT攻撃を効果的に軽減し、OLMoEの有害度スコアを62.0から5.0に下げた。
論文 参考訳(メタデータ) (2025-09-26T04:10:32Z) - Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection [85.0189917888094]
本稿では,微妙で頻繁なミスによって生じる課題に対処するため,Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) フレームワークを提案する。
提案手法は,特に稀かつ曖昧な誤りの特定において,高い性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T12:00:42Z) - Too Helpful, Too Harmless, Too Honest or Just Right? [19.134202394422285]
大規模言語モデル(LLM)は、幅広いNLPタスクに強いパフォーマンスを示す。
アウトプットをHelpfulness、Harmlessness、Hoesty(HHH)の原則と整合させることは、依然として永続的な課題である。
本稿では,Transformer アーキテクチャに Calibrated Experts (MoCaE) を組み込んだモジュールアライメントフレームワークである TrinityX を提案する。
論文 参考訳(メタデータ) (2025-09-10T10:51:47Z) - Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models [15.218318229687242]
大規模言語モデルにおける極端なアクティベーションアウトレイアは量子化性能を著しく低下させる。
生成を積極的に防止する実用的なガイドラインであるOutlier-Safe Pre-Training (OSP)を紹介した。
我々の研究は、アウトリーチはLLMに固有のものではなく、トレーニング戦略の結果であることを示した。
論文 参考訳(メタデータ) (2025-06-24T15:03:57Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。