論文の概要: Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling
- arxiv url: http://arxiv.org/abs/2410.03777v1
- Date: Thu, 3 Oct 2024 08:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:30:33.252788
- Title: Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling
- Title(参考訳): Determine-Then-Ensemble:大規模言語モデル構築のためのTop-k Unionの必要性
- Authors: Yuxuan Yao, Han Wu, Mingyang Liu, Sichun Luo, Xiongwei Han, Jie Liu, Zhijiang Guo, Linqi Song,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクに様々な長所と短所を示す。
既存のLLMアンサンブル法は、しばしばモデルの互換性を見落とし、確率の非効率なアライメントに苦しむ。
textscUnion textscTop-$k$ textscEnsembling (textscUniTE)は,各モデルから上位kトークンの結合に着目し,効率的にモデルを結合する新しいアプローチである。
- 参考スコア(独自算出の注目度): 23.447466392929712
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) exhibit varying strengths and weaknesses across different tasks, prompting recent studies to explore the benefits of ensembling models to leverage their complementary advantages. However, existing LLM ensembling methods often overlook model compatibility and struggle with inefficient alignment of probabilities across the entire vocabulary. In this study, we empirically investigate the factors influencing ensemble performance, identifying model performance, vocabulary size, and response style as key determinants, revealing that compatibility among models is essential for effective ensembling. This analysis leads to the development of a simple yet effective model selection strategy that identifies compatible models. Additionally, we introduce the \textsc{Uni}on \textsc{T}op-$k$ \textsc{E}nsembling (\textsc{UniTE}), a novel approach that efficiently combines models by focusing on the union of the top-k tokens from each model, thereby avoiding the need for full vocabulary alignment and reducing computational overhead. Extensive evaluations across multiple benchmarks demonstrate that \textsc{UniTE} significantly enhances performance compared to existing methods, offering a more efficient framework for LLM ensembling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにおいて様々な長所と短所を示すため、近年の研究では、それらの相補的な優位性を活用するためのアンサンブルモデルの利点を探求している。
しかし、既存のLLMアンサンブル法は、しばしばモデルの互換性を見落とし、語彙全体にわたる確率の非効率なアライメントに苦慮する。
本研究では,アンサンブル性能に影響を及ぼす要因を実証的に検討し,モデル性能,語彙サイズ,応答スタイルを重要な決定要因として同定し,有効アンサンブルにはモデル間の互換性が不可欠であることを明らかにした。
この分析により、互換性のあるモデルを特定するシンプルなモデル選択戦略が開発される。
さらに、各モデルからトップkトークンの和合に着目してモデルを効率的に組み合わせ、完全な語彙アライメントの必要性を回避し、計算オーバーヘッドを低減する新しいアプローチである、 \textsc{Uni}on \textsc{T}op-$k$ \textsc{E}nsembling (\textsc{UniTE})を導入する。
複数のベンチマークにまたがる大規模な評価により、‘textsc{UniTE} は既存のメソッドと比較して性能を大幅に向上し、LLMアンサンブルのためのより効率的なフレームワークを提供することが示された。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - CharED: Character-wise Ensemble Decoding for Large Language Models [24.993790740335243]
本稿では,複数の大規模言語モデルから出力を"出力する"ことを目的とした推論時アンサンブルアルゴリズムを提案する。
提案モデルでは,語彙,トークン化,モデルサイズに関わらず,複数のLLMの補完的強度を組み合わせることができる。
論文 参考訳(メタデータ) (2024-06-25T22:35:07Z) - Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは、言語モデルのアライメント効率を高めるために、多様なシステムプロンプトと組み合わせた命令結合戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文 参考訳(メタデータ) (2022-05-31T12:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。