論文の概要: H3Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs
- arxiv url: http://arxiv.org/abs/2411.17792v3
- Date: Fri, 17 Oct 2025 21:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.136084
- Title: H3Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs
- Title(参考訳): H3フュージョン:無害で高潔なLLMの融合
- Authors: Selim Furkan Tekin, Fatih Ilhan, Tiansheng Huang, Sihao Hu, Yichang Xu, Zachary Yahn, Ling Liu,
- Abstract要約: H3フュージョン(H3Fusion)は、制御可能なドリフトとしてアライメントをモデル化する、MoE(Mixix-of-experts)ベースの融合機構である。
我々は、生成した埋め込みとアライメント埋め込みの距離を利用するという2つの目的を見出すことにより、アライメントを定式化する。
3つのベンチマークデータセットの大規模な評価は、H3Fusionが3つの面でより有用で、有害で、より正直であることを示している。
- 参考スコア(独自算出の注目度): 20.071767063618548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment of pre-trained LLMs continues to draw significant attention from both industry and academia, aiming to ensure responses that are helpful, harmless, and honest. However, identifying a point in the model's representation subspace that simultaneously satisfies all these properties remains challenging. H3Fusion addresses this challenge by introducing a mixture-of-experts (MoE)-based fusion mechanism that models alignment as a controllable drift within the subspace, guided by a drift-regularization loss to balance competing alignment dimensions. Furthermore, we formulate the alignment by finding a dual objective of harnessing the distance of generated embeddings and alignment embeddings, and introduce a gating loss by canalizing the activations on the contributing experts. Extensive evaluations of three benchmark datasets show that H3Fusion is more helpful, less harmful, and more honest in three aspects: it outperforms each individually aligned model by 11.37%, and provides stronger robustness compared to the state-of-the-art LLM ensemble approaches by 13.77% and model-merging approaches by 6.18%. Code is available at https://github.com/sftekin/h3fusion.
- Abstract(参考訳): 事前訓練されたLSMの調整は、有用で無害で誠実な応答を確保することを目的として、業界と学界の両方から大きな注目を集めている。
しかしながら、これらの性質を同時に満たすモデルの表現部分空間内の点を特定することは、依然として困難である。
H3Fusionは、サブスペース内の制御可能なドリフトとしてアライメントをモデル化し、競合するアライメント次元のバランスをとるためにドリフト規則化損失によってガイドされる、ME(Mixix-of-experts)ベースの融合メカニズムを導入することで、この問題に対処する。
さらに, 生成した埋め込み距離とアライメント埋め込み距離を両立させることによりアライメントを定式化し, 貢献者に対するアクティベーションのカナル化によるゲーティングロスを導入する。
3つのベンチマークデータセットの大規模な評価から、H3Fusionはより有用で、より有害で、より正直な3つの側面が示される:H3Fusionは個々のモデルを11.37%、最先端のLLMアンサンブルアプローチの13.77%、モデルマージアプローチの6.18%を上回っている。
コードはhttps://github.com/sftekin/h3fusionで入手できる。
関連論文リスト
- Rethinking LoRA for Privacy-Preserving Federated Learning in Large Models [14.755143405057929]
差分プライベートラーニング(DPFL)の下での微調整大型ビジョンモデル(LVM)と大規模言語モデル(LLM)は、基本的なプライバシーとユーティリティのトレードオフによって妨げられる。
Low-Rank Adaptation (LoRA)はPEFT法であり、トレーニング可能な2つの低ランク行列を導入し、事前訓練した重みを凍結することにより、計算と通信のコストを削減する。
LA-LoRAは、勾配の相互作用を分離し、クライアント間で更新方向を調整し、厳密なプライバシー制約の下で堅牢性を高める新しいアプローチである。
論文 参考訳(メタデータ) (2026-02-23T15:05:28Z) - MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning [16.012761588513026]
Reinforcement Learning with Verifiable Rewards (RLVR)アルゴリズムは、剛性、均一性、および対称性のある信頼領域機構に依存している。
本稿では,これらの3次元を調和させる統合フレームワークであるMass-Adaptive Soft Policy Optimization (MASPO)を提案する。
MASPOは、勾配ユーティリティを最大化するために、微分可能なソフトガウスゲーティングと、確率スペクトル間の探索のバランスをとる質量適応リミッタと、信号の信頼性を調整するための非対称リスクコントローラを統合している。
論文 参考訳(メタデータ) (2026-02-19T17:05:20Z) - Dual-Branch Center-Surrounding Contrast: Rethinking Contrastive Learning for 3D Point Clouds [55.5576033344795]
本稿では,DualBranch textbfCentertextbfSurrounding textbfContrast (CSCon) フレームワークを提案する。
FULLおよびALLプロトコルでは、CSConは生成メソッドに匹敵するパフォーマンスを達成する。
提案手法は, クロスモーダルなアプローチを超越して, 最先端の成果が得られる。
論文 参考訳(メタデータ) (2025-12-09T14:56:35Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Too Helpful, Too Harmless, Too Honest or Just Right? [19.134202394422285]
大規模言語モデル(LLM)は、幅広いNLPタスクに強いパフォーマンスを示す。
アウトプットをHelpfulness、Harmlessness、Hoesty(HHH)の原則と整合させることは、依然として永続的な課題である。
本稿では,Transformer アーキテクチャに Calibrated Experts (MoCaE) を組み込んだモジュールアライメントフレームワークである TrinityX を提案する。
論文 参考訳(メタデータ) (2025-09-10T10:51:47Z) - SRMIR: Shadow Reward Models Based on Introspective Reasoning for LLM Alignment [0.0]
SRMIR(Shadow Reward Models Based on Introspective Reasoning)は、メンバーシップ推論攻撃におけるシャドーモデルにインスパイアされている。
政策最適化のためのシャドウ報酬モデルを統合するために,線形結合と分類アプローチの2つの戦略を適用した。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation [15.47711837051754]
Mixup Model Mergeは、Mixupデータ拡張技術にインスパイアされた革新的なアプローチである。
M$3$は、マージされたモデルの性能を大幅に向上させる、単純だが効果的なモデルマージ手法である。
論文 参考訳(メタデータ) (2025-02-21T13:01:26Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging [36.00016254809852]
本稿では, 3H 対応 LLM の構築におけるモデルマージとデータ混合手法の有効性を体系的に比較する。
そこで本稿では,新しいtextbfReweighting textbfEnhanced Task textbfSingular textbfMerging method, textbfRESMを提案する。
論文 参考訳(メタデータ) (2025-02-08T11:56:58Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion [35.98702433016698]
InfiFusionは、ドメイン特化言語モデル(LLM)を単一のピボットモデルに統合するために設計された、効率的なトレーニングパイプラインである。
Pairwise Fusion (InfiFusion$_p$) と Unified Fusion (InfiFusion$_u$) の2つの融合戦略を提案する。
InfiFusionは、Qwen-2.5-14B-InstructやPhi-4といった最先端のモデルよりも、11の広く適用されたベンチマークで優れている。
論文 参考訳(メタデータ) (2025-01-06T06:29:55Z) - GMoE: Empowering LLMs Fine-Tuning via MoE Graph Collaboration [39.302800055216764]
複数の専門家のコラボレーションを強化することを目的とした、新しいMoEグラフベースのフレームワークである$textbfGMoE$を紹介した。
GMoEでは、グラフルータ関数は専門家間の協調信号をキャプチャするように設計されている。
GMoEでは、$textitPoissonディストリビューションベースの区別戦略と$textitNormal分散ベースのバランス戦略の2つの調整戦略を提案しました。
論文 参考訳(メタデータ) (2024-12-18T02:18:57Z) - S$^{2}$FT: Efficient, Scalable and Generalizable LLM Fine-tuning by Structured Sparsity [39.679861450783605]
LLMのための構造化スパースファインチューニング(S$2$FT)手法のファミリーを提案する。
S$2$FTは、"スパースと密度の高い計算を選択"することでこれを達成します。
S$2$FTはトレーニングメモリを最大3$times$まで節約し、フルFTと比較して1.5-2.7$times$のレイテンシを改善することを示す。
論文 参考訳(メタデータ) (2024-12-09T08:24:11Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models [1.6339731044538859]
本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。
本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。