論文の概要: ProFuser: Progressive Fusion of Large Language Models
- arxiv url: http://arxiv.org/abs/2408.04998v1
- Date: Fri, 9 Aug 2024 11:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:56:59.541636
- Title: ProFuser: Progressive Fusion of Large Language Models
- Title(参考訳): ProFuser: 大規模言語モデルの進歩的な融合
- Authors: Tianyuan Shi, Fanqi Wan, Canbin Huang, Xiaojun Quan, Chenliang Li, Ming Yan, Ji Zhang,
- Abstract要約: トレーニングモードと推論モードの両方を組み込むことで、融合プロセスを強化する新しいアプローチを導入する。
本手法は,トレーニング中のクロスエントロピーだけでなく,推論出力も考慮してモデル優位性を評価する。
ProFuserの有効性を検証するために, vicuna-7b-v1.5, Llama-2-7b-chat, mpt-7b-8k-chatの3つのモデルを融合した。
- 参考スコア(独自算出の注目度): 53.697927989207045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While fusing the capacities and advantages of various large language models (LLMs) offers a pathway to construct more powerful and versatile models, a fundamental challenge is to properly select advantageous model during the training. Existing fusion methods primarily focus on the training mode that uses cross entropy on ground truth in a teacher-forcing setup to measure a model's advantage, which may provide limited insight towards model advantage. In this paper, we introduce a novel approach that enhances the fusion process by incorporating both the training and inference modes. Our method evaluates model advantage not only through cross entropy during training but also by considering inference outputs, providing a more comprehensive assessment. To combine the two modes effectively, we introduce ProFuser to progressively transition from inference mode to training mode. To validate ProFuser's effectiveness, we fused three models, including vicuna-7b-v1.5, Llama-2-7b-chat, and mpt-7b-8k-chat, and demonstrated the improved performance in knowledge, reasoning, and safety compared to baseline methods.
- Abstract(参考訳): 様々な大規模言語モデル(LLM)の能力と利点を融合させることは、より強力で汎用的なモデルを構築するための経路を提供する一方で、訓練中に有利なモデルを適切に選択することが根本的な課題である。
既存の融合法は主に、モデル優位性を測定するための教師強制的な設定において、地平線上のクロスエントロピーを使用する訓練モードに焦点を当てており、モデル優位性に対する限られた洞察を与える可能性がある。
本稿では,トレーニングモードと推論モードの両方を組み込むことで,融合プロセスを強化する新しいアプローチを提案する。
提案手法は, クロスエントロピーだけでなく, 推論出力も考慮し, より総合的な評価を行うことで, モデル優位性を評価する。
2つのモードを効果的に組み合わせるために,推論モードからトレーニングモードへ段階的に移行するProFuserを導入する。
ProFuserの有効性を検証するために, vicuna-7b-v1.5, Llama-2-7b-chat, mpt-7b-8k-chatの3つのモデルを融合し, ベースライン法と比較して知識, 推論, 安全性の向上を実証した。
関連論文リスト
- Joint Training for Selective Prediction [5.662924503089369]
選択予測法は、分類器の出力をいつ採用するか、人間に延期するかを決定する。
以前の方法の1つは、エンジニアリングされた特徴に基づいて遅延モデルを学習することである。
分類器モジュールが使用する学習表現と学習遅延ポリシーを同時に最適化する新しい共同学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T15:28:26Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Two-Stage Triplet Loss Training with Curriculum Augmentation for
Audio-Visual Retrieval [3.164991885881342]
クロス検索モデルは堅牢な埋め込み空間を学習する。
この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを導入する。
本稿では,モデルの学習過程をセミハードからハードトリップにガイドする2段階の学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T12:35:54Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。