Fugu-MT 論文翻訳(概要): $H^3$Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs

論文の概要: $H^3$Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs

arxiv url: http://arxiv.org/abs/2411.17792v1
Date: Tue, 26 Nov 2024 17:42:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.407998
Title: $H^3$Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs
Title（参考訳）: H^3$Fusion: Aligned LLMsのヘルプで無害で正直な融合
Authors: Selim Furkan Tekin, Fatih Ilhan, Tiansheng Huang, Sihao Hu, Zachary Yahn, Ling Liu,
Abstract要約: 命令ベースデータセットを用いた事前学習LLMのアライメントは、人間の好みを反映した微調整モデルを作成する上で重要である。本稿では,3つの特徴を持つアライメント融合法(H3$Fusion)を考案した。個々のモデルを11.37%$で上回り、最先端のLLMアンサンブルのアプローチに比べて13.77%$で強い堅牢性を提供する。
参考スコア（独自算出の注目度）: 7.498844064516196
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Alignment of pretrained LLMs using instruction-based datasets is critical for creating fine-tuned models that reflect human preference. A growing number of alignment-based fine-tuning algorithms and benchmarks emerged recently, fueling the efforts on effective alignments of pre-trained LLMs to ensure helpful, harmless, and honest answers from both open-source and closed-source LLMs. This paper tackles this problem by developing an alignment fusion approach, coined as $H^3$Fusion, with three unique characteristics. First, $H^3$Fusion ensembles multiple individually aligned LLMs to create a final fine-tuned alignment model with enhanced capabilities beyond those of individual models, delivering robust alignment through promoting helpful, harmless, honest fusion. Second, $H^3$Fusion leverages the mixture-of-experts (MoE) methodology in two steps. We first freeze the multi-head attention weights of each individual model while tuning the FFN layer during alignment fusion. Then we merge the aligned model weights with an expert router according to the type of input instruction and dynamically select a subset of experts that are best suited for producing the output response. Finally, we boost the performance of the resulting $H^3$3Fusion model by introducing gating loss and regularization terms. The former penalizes the selection errors of the expert-router, and the latter mediates the expert weights drifting during fine-tuning and dynamically adjusts the fusion behavior of the resulting model by canalizing the activations on the experts. Extensive evaluations on three benchmark datasets show that $H^3$3Fusion is more helpful, less harmful, and more honest from two aspects: it outperforms each individually aligned model by $11.37\%$, and it provides stronger robustness compared to the state-of-the-art LLM ensemble approaches by $13.77\%$. Code is available at github.com/sftekin/h3fusion.
Abstract（参考訳）: 命令ベースデータセットを用いた事前学習LLMのアライメントは、人間の好みを反映した微調整モデルを作成する上で重要である。近年、アライメントベースの微調整アルゴリズムやベンチマークが増加し、オープンソースのLLMとクローズドソースのLLMの両方の有用な、無害で正直な回答を保証するために、事前訓練されたLLMを効果的にアライメントする取り組みが加速した。本稿では,3つの特徴を持つアライメント融合法(H^3$Fusion)を考案し,この問題に対処する。まず、$H^3$Fusion は複数の個別に整列した LLM をアンサンブルして、個々のモデルを超えて拡張された機能を備えた最終的な微調整アライメントモデルを作成し、有用で無害で正直な融合を促進することで堅牢なアライメントを提供する。第二に、$H^3$Fusionは2つのステップでME(Mix-of-experts)手法を利用する。まず、アライメント融合中にFFN層を調整しながら各モデルのマルチヘッドアテンション重みを凍結する。次に、入力命令の種類に応じて、整列モデルの重み付けをエキスパートルータにマージし、出力応答を生成するのに最適な専門家のサブセットを動的に選択する。最後に、ゲーティング損失と正規化項を導入することにより、結果として得られる$H^3$3Fusionモデルの性能を向上する。前者はエキスパートルータの選択誤差をペナライズし、後者は微調整中に漂流するエキスパートウェイトを仲介し、専門家にアクティベーションをカナライズすることで結果モデルの融合挙動を動的に調整する。 3つのベンチマークデータセットの大規模な評価によると、$H^3$3Fusionはより有用で、より有害で、より誠実である。コードはgithub.com/sftekin/h3fusionで入手できる。

関連論文リスト

SRMIR: Shadow Reward Models Based on Introspective Reasoning for LLM Alignment [0.0]
SRMIR(Shadow Reward Models Based on Introspective Reasoning)は、メンバーシップ推論攻撃におけるシャドーモデルにインスパイアされている。政策最適化のためのシャドウ報酬モデルを統合するために,線形結合と分類アプローチの2つの戦略を適用した。
論文参考訳（メタデータ） (2025-03-23T16:40:29Z)
Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation [15.47711837051754]
Mixup Model Mergeは、Mixupデータ拡張技術にインスパイアされた革新的なアプローチである。 M$3$は、マージされたモデルの性能を大幅に向上させる、単純だが効果的なモデルマージ手法である。
論文参考訳（メタデータ） (2025-02-21T13:01:26Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion [35.98702433016698]
InfiFusionは、ドメイン特化言語モデル(LLM)を単一のピボットモデルに統合するために設計された、効率的なトレーニングパイプラインである。 Pairwise Fusion (InfiFusion$_p$) と Unified Fusion (InfiFusion$_u$) の2つの融合戦略を提案する。 InfiFusionは、Qwen-2.5-14B-InstructやPhi-4といった最先端のモデルよりも、11の広く適用されたベンチマークで優れている。
論文参考訳（メタデータ） (2025-01-06T06:29:55Z)
GMoE: Empowering LLMs Fine-Tuning via MoE Graph Collaboration [39.302800055216764]
複数の専門家のコラボレーションを強化することを目的とした、新しいMoEグラフベースのフレームワークである$textbfGMoE$を紹介した。 GMoEでは、グラフルータ関数は専門家間の協調信号をキャプチャするように設計されている。 GMoEでは、$textitPoissonディストリビューションベースの区別戦略と$textitNormal分散ベースのバランス戦略の2つの調整戦略を提案しました。
論文参考訳（メタデータ） (2024-12-18T02:18:57Z)
S$^{2}$FT: Efficient, Scalable and Generalizable LLM Fine-tuning by Structured Sparsity [39.679861450783605]
LLMのための構造化スパースファインチューニング(S$2$FT)手法のファミリーを提案する。 S$2$FTは、"スパースと密度の高い計算を選択"することでこれを達成します。 S$2$FTはトレーニングメモリを最大3$times$まで節約し、フルFTと比較して1.5-2.7$times$のレイテンシを改善することを示す。
論文参考訳（メタデータ） (2024-12-09T08:24:11Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。 emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文参考訳（メタデータ） (2024-07-29T09:02:19Z)
Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文参考訳（メタデータ） (2024-06-27T02:46:30Z)
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文参考訳（メタデータ） (2024-06-20T17:59:58Z)
CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models [1.6339731044538859]
本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
論文参考訳（メタデータ） (2024-03-05T07:58:12Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。