論文の概要: We Think, Therefore We Align LLMs to Helpful, Harmless and Honest Before They Go Wrong
- arxiv url: http://arxiv.org/abs/2509.22510v1
- Date: Fri, 26 Sep 2025 15:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.564104
- Title: We Think, Therefore We Align LLMs to Helpful, Harmless and Honest Before They Go Wrong
- Title(参考訳): 私たちは、LLMが失敗する前に、助け、無害、そして正直に働くようにしています。
- Authors: Gautam Siddharth Kashyap, Mark Dras, Usman Naseem,
- Abstract要約: Adaptive Multi-Branch Steering (AMBS) は、統合された効率的な多目的アライメントのための2段階の1-Nフレームワークである。
AMBSは、複数の7B LLMバックボーン間のHHHアライメントを一貫して改善する。
- 参考スコア(独自算出の注目度): 19.134202394422285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment of Large Language Models (LLMs) along multiple objectives-helpfulness, harmlessness, and honesty (HHH)-is critical for safe and reliable deployment. Prior work has used steering vector-small control signals injected into hidden states-to guide LLM outputs, typically via one-to-one (1-to-1) Transformer decoders. In this setting, optimizing a single alignment objective can inadvertently overwrite representations learned for other objectives, leading to catastrophic forgetting. More recent approaches extend steering vectors via one-to-many (1-to-N) Transformer decoders. While this alleviates catastrophic forgetting, naive multi-branch designs optimize each objective independently, which can cause inference fragmentation-outputs across HHH objectives may become inconsistent. We propose Adaptive Multi-Branch Steering (AMBS), a two-stage 1-to-N framework for unified and efficient multi-objective alignment. In Stage I, post-attention hidden states of the Transformer layer are computed once to form a shared representation. In Stage II, this representation is cloned into parallel branches and steered via a policy-reference mechanism, enabling objective-specific control while maintaining cross-objective consistency. Empirical evaluations on Alpaca, BeaverTails, and TruthfulQA show that AMBS consistently improves HHH alignment across multiple 7B LLM backbones. For example, on DeepSeek-7B, AMBS improves average alignment scores by +32.4% and reduces unsafe outputs by 11.0% compared to a naive 1-to-N baseline, while remaining competitive with state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントは、安全で信頼性の高いデプロイメントには不可欠である。
以前の研究では、隠れ状態に注入されたステアリングベクトル小制御信号を使用してLCM出力を誘導し、通常は1対1 (1-to-1) のトランスフォーマーデコーダを使用していた。
この設定では、単一アライメントの目的を最適化することは、他の目的のために学んだ表現を必然的に上書きし、破滅的な忘れがちになる。
より最近のアプローチでは、ワン・ツー・マニー(1-to-N)トランスフォーマーデコーダを介してステアリングベクトルを拡張している。
これは破滅的な忘れを緩和するが、単純なマルチブランチ設計はそれぞれの目的を独立に最適化し、HHHの目的をまたいだ推論のフラグメンテーションアウトプットが矛盾する可能性がある。
本稿では,AMBS(Adaptive Multi-Branch Steering)を提案する。
ステージIでは、トランスフォーマー層の保持後隠れ状態が一度計算され、共有表現を形成する。
ステージIIでは、この表現は並列ブランチにクローン化され、ポリシー参照機構を介してステアリングされる。
Alpaca, BeaverTails, TruthfulQAの実験的評価から, AMBSはHHHアライメントを複数の7B LLMバックボーンで一貫して改善することが示された。
例えば、DeepSeek-7Bでは、AMBSは平均アライメントスコアを+32.4%改善し、1-to-Nベースラインに比べて安全でない出力を11.0%削減する。
関連論文リスト
- MEUV: Achieving Fine-Grained Capability Activation in Large Language Models via Mutually Exclusive Unlock Vectors [37.488329455418054]
大きな言語モデル(LLM)は、悪意のある要求を確実に拒否するために安全アライメントを強制する。
しかし、同じ毛布の保護具は、警察、防衛、その他の高所設定における合法的な使用をブロックする。
モノリシックな拒絶方向をトピック整列ベクトルに分解する軽量なフレームワークであるMEUV(Mutually Exclusive Unlock Vectors)を紹介する。
論文 参考訳(メタデータ) (2025-09-04T07:16:06Z) - Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [6.462219916993885]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
我々は,ジェイルブレイク攻撃のための新しい手法を紹介し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Jacobian Descent for Multi-Objective Optimization [0.6138671548064355]
勾配降下は単目的最適化に限られる。
Jacobian descent (JD) はベクトル値の目的関数のヤコビ行列を用いてパラメータを反復的に更新する。
論文 参考訳(メタデータ) (2024-06-23T22:06:25Z) - Learning to Learn Better for Video Object Segmentation [94.5753973590207]
本稿では,SVOS の学習目標機能 (LLB) を強調する新しいフレームワークを提案する。
識別ラベル生成モジュール(DLGM)と適応融合モジュールを設計し,これらの課題に対処する。
提案手法は最先端性能を実現する。
論文 参考訳(メタデータ) (2022-12-05T09:10:34Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。