論文の概要: Adding Alignment Control to Language Models
- arxiv url: http://arxiv.org/abs/2503.04346v1
- Date: Thu, 06 Mar 2025 11:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:19.028776
- Title: Adding Alignment Control to Language Models
- Title(参考訳): 言語モデルへのアライメント制御の追加
- Authors: Wenhong Zhu, Weinan Zhang, Rui Wang,
- Abstract要約: 本稿では,CLMと呼ばれる単一モデルにアライメント制御を組み込む手法を提案する。
このアプローチでは、初期レイヤの前に1つのID層を追加し、このレイヤ上でのみ好みの学習を行い、不整合入力トークンの埋め込みを整合空間にマッピングする。
実験により, この効率的な微調整法は完全微調整に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 24.816519497203497
- License:
- Abstract: Post-training alignment has increasingly become a crucial factor in enhancing the usability of language models (LMs). However, the strength of alignment varies depending on individual preferences. This paper proposes a method to incorporate alignment control into a single model, referred to as CLM. This approach adds one identity layer preceding the initial layers and performs preference learning only on this layer to map unaligned input token embeddings into the aligned space. Experimental results demonstrate that this efficient fine-tuning method performs comparable to full fine-tuning. During inference, the input embeddings are processed through the aligned and unaligned layers, which are then merged through the interpolation coefficient. By controlling this parameter, the alignment exhibits a clear interpolation and extrapolation phenomenon.
- Abstract(参考訳): トレーニング後のアライメントは、言語モデル(LM)のユーザビリティを高める上で、ますます重要な要素になりつつある。
しかし、アライメントの強さは個人の好みによって異なる。
本稿では,CLMと呼ばれる単一モデルにアライメント制御を組み込む手法を提案する。
このアプローチでは、初期レイヤの前に1つのID層を追加し、このレイヤ上でのみ好みの学習を行い、不整合入力トークンの埋め込みを整合空間にマッピングする。
実験により, この効率的な微調整法は完全微調整に匹敵する性能を示した。
推論中、入力の埋め込みは整列層と非整列層を通して処理され、補間係数によってマージされる。
このパラメータを制御することで、アライメントは明確な補間と外挿現象を示す。
関連論文リスト
- Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [69.67015515485349]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T03:36:25Z) - Refusal in LLMs is an Affine Function [1.722461331472526]
本稿では,アフィン概念編集 (ACE) を言語モデルの振る舞いを制御するためのアプローチとして提案する。
ACEはアフィン部分空間の投影とアクティベーションの追加を組み合わせて、モデルの拒絶反応を確実に制御する。
実験の結果、ACEは既存の手法よりもモデル動作をより正確に制御できることがわかった。
論文 参考訳(メタデータ) (2024-11-13T20:12:55Z) - Understanding Layer Significance in LLM Alignment [23.582520695083588]
LLMアライメント(ILA)の重要なレイヤを特定するための新しい手法を提案する。
ILAは、さまざまなアライメントデータセットにまたがる重要なレイヤを一貫して識別する。
実験結果から,非定常層凍結はモデル全体の性能を向上する一方で,最重要層を選択的に調整することで,性能損失を最小限に抑えて微調整効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-10-23T13:47:05Z) - A Consistency-Aware Spot-Guided Transformer for Versatile and Hierarchical Point Cloud Registration [9.609585217048664]
我々は整合性を考慮したスポット誘導変換器(CAST)を開発した。
CASTは、無関係な領域への干渉を避けるために、スポット誘導のクロスアテンションモジュールを組み込んでいる。
スパースキーポイントと高密度特徴の両方のための軽量な微細マッチングモジュールは、変換を正確に推定することができる。
論文 参考訳(メタデータ) (2024-10-14T08:48:25Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - On Robust Learning from Noisy Labels: A Permutation Layer Approach [53.798757734297986]
本稿では、深層ニューラルネットワーク(DNN)のトレーニング過程を動的に校正するPermLLと呼ばれる置換層学習手法を提案する。
本稿では,PermLLの2つの変種について述べる。一方はモデルの予測に置換層を適用し,他方は与えられた雑音ラベルに直接適用する。
我々はPermLLを実験的に検証し、実際のデータセットと合成データセットの両方で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-11-29T03:01:48Z) - Multi-Attribute Balanced Sampling for Disentangled GAN Controls [0.0]
予め訓練されたGANの潜伏空間から、生成されたデータに対する様々な制御を抽出することができる。
提案手法は,非絡み付き後処理の不要さを回避しつつ,最先端の分類器に基づく手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-28T08:44:13Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions [36.82512331179322]
近年の研究では、異なるモダリティを扱うネットワークコンポーネントが、異なる速度でオーバーフィットし、一般化し、トレーニングの難しさを生んでいることが示唆されている。
本稿では,各層における勾配更新の規模を調整し,学習速度のバランスをとるため,LARS(Layer-wise Adaptive Rate Scaling)を提案する。
また、シーケンスワイドバッチ正規化(SBN)を用いて、内部の特徴分布を異なるモードから整列する。
論文 参考訳(メタデータ) (2020-11-15T13:04:25Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。