論文の概要: Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs
- arxiv url: http://arxiv.org/abs/2411.06824v1
- Date: Mon, 11 Nov 2024 09:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:43.904076
- Title: Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs
- Title(参考訳): ドメインとアライメントベクトルの組み合わせによるLLMのより優れた知識-安全トレードオフの実現
- Authors: Megh Thakkar, Yash More, Quentin Fournier, Matthew Riemer, Pin-Yu Chen, Amal Zouaq, Payel Das, Sarath Chandar,
- Abstract要約: 我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
- 参考スコア(独自算出の注目度): 64.83462841029089
- License:
- Abstract: There is a growing interest in training domain-expert LLMs that excel in specific technical fields compared to their general-purpose instruction-tuned counterparts. However, these expert models often experience a loss in their safety abilities in the process, making them capable of generating harmful content. As a solution, we introduce an efficient and effective merging-based alignment method called \textsc{MergeAlign} that interpolates the domain and alignment vectors, creating safer domain-specific models while preserving their utility. We apply \textsc{MergeAlign} on Llama3 variants that are experts in medicine and finance, obtaining substantial alignment improvements with minimal to no degradation on domain-specific benchmarks. We study the impact of model merging through model similarity metrics and contributions of individual models being merged. We hope our findings open new research avenues and inspire more efficient development of safe expert LLMs.
- Abstract(参考訳): 特定の技術分野において優れたドメインエキスパートのLLMを訓練することへの関心は、汎用的な教育訓練と比較すると、ますます高まっている。
しかし、これらの専門家モデルは、しばしばプロセス中の安全能力の喪失を経験し、有害なコンテンツを生成することができる。
そこで本研究では,ドメインとアライメントベクトルを補間し,有効性を保ちつつ,より安全なドメイン固有モデルを作成する,‘textsc{MergeAlign} という,効率的かつ効果的なマージベースのアライメント手法を提案する。
医学やファイナンスの専門家であるLlama3 変種に \textsc{MergeAlign} を適用することで、ドメイン固有のベンチマークを最小限から最小限にすることなく、アライメントの改善を実現する。
モデル類似度指標によるモデルマージの影響と、マージされる個々のモデルの寄与について検討する。
我々は、新たな研究の道を開き、安全な専門家のLSMをより効率的に開発することを願っている。
関連論文リスト
- LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。
等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。
7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文 参考訳(メタデータ) (2024-10-17T16:04:07Z) - Model-Based Differentially Private Knowledge Transfer for Large Language Models [34.949731264918846]
プライバシ保護,ドメイン固有モデルを大規模言語モデルに統合するフレームワークである textitLlamdex を提案する。
提案手法はドメイン固有のタスクの精度を大幅に向上させ,既存手法と比較して最大26%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-14T13:18:20Z) - Unveiling the Vulnerability of Private Fine-Tuning in Split-Based Frameworks for Large Language Models: A Bidirectionally Enhanced Attack [20.727726850786386]
BiSRは、スプリットラーニング(SL)の前方および後方伝播プロセスの両方をターゲットにした最初のデータ再構成攻撃である。
SLの前方および後方伝播過程を標的とした最初のデータ再構成攻撃(DRA)であるBiSRを提案する。
論文 参考訳(メタデータ) (2024-09-02T06:01:20Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。
本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。
本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models [25.68491572293656]
大規模言語モデルは、名前付きエンティティ認識のような構造化された知識抽出タスクにおいて不足する。
本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。
論文 参考訳(メタデータ) (2024-03-17T06:12:43Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。