論文の概要: Improving In-Context Learning with Small Language Model Ensembles
- arxiv url: http://arxiv.org/abs/2410.21868v1
- Date: Tue, 29 Oct 2024 09:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:00.151701
- Title: Improving In-Context Learning with Small Language Model Ensembles
- Title(参考訳): 小言語モデルアンサンブルによる文脈内学習の改善
- Authors: M. Mehdi Mojarradi, Lingyi Yang, Robert McCraith, Adam Mahdi,
- Abstract要約: In-context Learning (ICL) は安価で効率的な代替手段であるが、高度な手法の精度と一致しない。
本稿では,複数の微調整小言語モデル(SLM)の専門知識を活用することでICLを強化する新しいアプローチであるEnsemble SuperICLを提案する。
- 参考スコア(独自算出の注目度): 2.3499129784547654
- License:
- Abstract: Large language models (LLMs) have shown impressive capabilities across various tasks, but their performance on domain-specific tasks remains limited. While methods like retrieval augmented generation and fine-tuning can help to address this, they require significant resources. In-context learning (ICL) is a cheap and efficient alternative but cannot match the accuracies of advanced methods. We present Ensemble SuperICL, a novel approach that enhances ICL by leveraging the expertise of multiple fine-tuned small language models (SLMs). Ensemble SuperICL achieves state of the art (SoTA) results on several natural language understanding benchmarks. Additionally, we test it on a medical-domain labelling task and showcase its practicality by using off-the-shelf SLMs fine-tuned on a general language task, achieving superior accuracy in large-scale data labelling compared to all baselines. Finally, we conduct an ablation study and sensitivity analyses to elucidate the underlying mechanism of Ensemble SuperICL. Our research contributes to the growing demand for efficient domain specialisation methods in LLMs, offering a cheap and effective method for practitioners.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがって印象的な機能を示しているが、ドメイン固有のタスクのパフォーマンスは依然として限られている。
拡張生成の検索や微調整といった手法は、この問題に対処するのに役立ちますが、かなりのリソースが必要です。
In-context Learning (ICL) は安価で効率的な代替手段であるが、高度な手法の精度と一致しない。
In this present Ensemble SuperICL, a novel approach that enhance ICL by advantage of multiple fine-tuned small language model (SLMs)。
Ensemble SuperICLは、いくつかの自然言語理解ベンチマークで最先端(SoTA)の結果を達成する。
さらに,医学領域のラベル付けタスクでテストを行い,汎用言語タスクで微調整された既製のSLMを用いて,すべてのベースラインと比較して大規模データのラベル付けに優れた精度を達成し,その実用性を示す。
最後に,Ensemble SuperICLの基礎メカニズムを明らかにするためのアブレーション研究と感度解析を行った。
本研究は, LLMにおける効率的なドメイン専門化手法の需要の増加に寄与し, 実践者にとって安価で効果的な手法を提供する。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。
本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。
ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-04-11T08:20:10Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking [21.799697177859898]
本稿では,RS-LLM (Rich Semantic based LLMs) というコンテキスト内学習手法を用いて,大規模言語モデル (LLM) を基礎モデルとして導入する。
少数の中国固有のリッチなセマンティック構造を導入することで、LCMは、数ショットのCSCタスクにおいてBERTベースのモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-13T12:55:43Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。