論文の概要: $H^3$Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs
- arxiv url: http://arxiv.org/abs/2411.17792v1
- Date: Tue, 26 Nov 2024 17:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:48.198973
- Title: $H^3$Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs
- Title(参考訳): H^3$Fusion: Aligned LLMsのヘルプで無害で正直な融合
- Authors: Selim Furkan Tekin, Fatih Ilhan, Tiansheng Huang, Sihao Hu, Zachary Yahn, Ling Liu,
- Abstract要約: 命令ベースデータセットを用いた事前学習LLMのアライメントは、人間の好みを反映した微調整モデルを作成する上で重要である。
本稿では,3つの特徴を持つアライメント融合法(H3$Fusion)を考案した。
個々のモデルを11.37%$で上回り、最先端のLLMアンサンブルのアプローチに比べて13.77%$で強い堅牢性を提供する。
- 参考スコア(独自算出の注目度): 7.498844064516196
- License:
- Abstract: Alignment of pretrained LLMs using instruction-based datasets is critical for creating fine-tuned models that reflect human preference. A growing number of alignment-based fine-tuning algorithms and benchmarks emerged recently, fueling the efforts on effective alignments of pre-trained LLMs to ensure helpful, harmless, and honest answers from both open-source and closed-source LLMs. This paper tackles this problem by developing an alignment fusion approach, coined as $H^3$Fusion, with three unique characteristics. First, $H^3$Fusion ensembles multiple individually aligned LLMs to create a final fine-tuned alignment model with enhanced capabilities beyond those of individual models, delivering robust alignment through promoting helpful, harmless, honest fusion. Second, $H^3$Fusion leverages the mixture-of-experts (MoE) methodology in two steps. We first freeze the multi-head attention weights of each individual model while tuning the FFN layer during alignment fusion. Then we merge the aligned model weights with an expert router according to the type of input instruction and dynamically select a subset of experts that are best suited for producing the output response. Finally, we boost the performance of the resulting $H^3$3Fusion model by introducing gating loss and regularization terms. The former penalizes the selection errors of the expert-router, and the latter mediates the expert weights drifting during fine-tuning and dynamically adjusts the fusion behavior of the resulting model by canalizing the activations on the experts. Extensive evaluations on three benchmark datasets show that $H^3$3Fusion is more helpful, less harmful, and more honest from two aspects: it outperforms each individually aligned model by $11.37\%$, and it provides stronger robustness compared to the state-of-the-art LLM ensemble approaches by $13.77\%$. Code is available at github.com/sftekin/h3fusion.
- Abstract(参考訳): 命令ベースデータセットを用いた事前学習LLMのアライメントは、人間の好みを反映した微調整モデルを作成する上で重要である。
近年、アライメントベースの微調整アルゴリズムやベンチマークが増加し、オープンソースのLLMとクローズドソースのLLMの両方の有用な、無害で正直な回答を保証するために、事前訓練されたLLMを効果的にアライメントする取り組みが加速した。
本稿では,3つの特徴を持つアライメント融合法(H^3$Fusion)を考案し,この問題に対処する。
まず、$H^3$Fusion は複数の個別に整列した LLM をアンサンブルして、個々のモデルを超えて拡張された機能を備えた最終的な微調整アライメントモデルを作成し、有用で無害で正直な融合を促進することで堅牢なアライメントを提供する。
第二に、$H^3$Fusionは2つのステップでME(Mix-of-experts)手法を利用する。
まず、アライメント融合中にFFN層を調整しながら各モデルのマルチヘッドアテンション重みを凍結する。
次に、入力命令の種類に応じて、整列モデルの重み付けをエキスパートルータにマージし、出力応答を生成するのに最適な専門家のサブセットを動的に選択する。
最後に、ゲーティング損失と正規化項を導入することにより、結果として得られる$H^3$3Fusionモデルの性能を向上する。
前者はエキスパートルータの選択誤差をペナライズし、後者は微調整中に漂流するエキスパートウェイトを仲介し、専門家にアクティベーションをカナライズすることで結果モデルの融合挙動を動的に調整する。
3つのベンチマークデータセットの大規模な評価によると、$H^3$3Fusionはより有用で、より有害で、より誠実である。
コードはgithub.com/sftekin/h3fusionで入手できる。
関連論文リスト
- Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization [18.73637736606997]
Pack of LLMs (PackLLM) は、入力プロンプトが与えられた場合、各LSMの専門知識を活用するテスト時間融合の有効な方法である。
我々は,多種多様なタスクに対して,100以上の大規模言語モデル(LLM)を用いて実験を行う。
PackLLMは、テスト時間融合ベースラインを1.89%精度で上回る。
論文 参考訳(メタデータ) (2024-04-17T16:24:07Z) - CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models [1.6339731044538859]
本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。
本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。