論文の概要: ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler
- arxiv url: http://arxiv.org/abs/2403.17536v1
- Date: Tue, 26 Mar 2024 09:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:57:01.674130
- Title: ILLUMINER: Instruction-tuned Large Language Models as Few-shot Intent Classifier and Slot Filler
- Title(参考訳): ILLUMINER:Few-shot Intent ClassifierとSlot Fillerとしての命令調整型大規模言語モデル
- Authors: Paramita Mirza, Viju Sudhi, Soumya Ranjan Sahoo, Sinchana Ramakanth Bhat,
- Abstract要約: 本研究では、インテント分類(IC)とスロットフィリング(SF)のための人気のあるベンチマークデータセット上で、命令調整モデル(インストラクション-LLM)を評価する。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11Bモデルを用いた複数のベースラインとの総合的な比較から,本手法は最先端のジョイントIC+SF法やGPT3.5 (175B) を用いたテキスト内学習よりも優れていた。
- 参考スコア(独自算出の注目度): 1.9015367254988451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art intent classification (IC) and slot filling (SF) methods often rely on data-intensive deep learning models, limiting their practicality for industry applications. Large language models on the other hand, particularly instruction-tuned models (Instruct-LLMs), exhibit remarkable zero-shot performance across various natural language tasks. This study evaluates Instruct-LLMs on popular benchmark datasets for IC and SF, emphasizing their capacity to learn from fewer examples. We introduce ILLUMINER, an approach framing IC and SF as language generation tasks for Instruct-LLMs, with a more efficient SF-prompting method compared to prior work. A comprehensive comparison with multiple baselines shows that our approach, using the FLAN-T5 11B model, outperforms the state-of-the-art joint IC+SF method and in-context learning with GPT3.5 (175B), particularly in slot filling by 11.1--32.2 percentage points. Additionally, our in-depth ablation study demonstrates that parameter-efficient fine-tuning requires less than 6% of training data to yield comparable performance with traditional full-weight fine-tuning.
- Abstract(参考訳): State-of-the-art intent classification (IC) と slot fill (SF) の手法は、しばしばデータ集約的なディープラーニングモデルに依存し、産業アプリケーションに対する実用性を制限する。
一方、大規模言語モデル、特に命令調整型モデル(インストラクト-LLM)は、様々な自然言語タスクにおいて顕著なゼロショット性能を示す。
本研究では,IC と SF のベンチマークデータセットに対するインストラクト-LLM の評価を行い,より少ない例から学ぶ能力を強調した。
Instruct-LLM の言語生成タスクとして IC と SF をフレーミングする ILLUMINER を導入する。
FLAN-T5 11B モデルを用いた複数のベースラインとの総合的な比較により,提案手法は最先端のジョイントIC+SF法や GPT3.5 (175B) を用いたインコンテクスト学習よりも優れており,特にスロットフィリングにおいて 11.1-32.2 ポイント向上している。
さらに,パラメータ効率のよい微調整は,従来のフルウェイト微調整と同等の性能を発揮するために,6%未満のトレーニングデータを必要とすることを示した。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - ProtoFL: Unsupervised Federated Learning via Prototypical Distillation [24.394455010267617]
フェデレーション学習は、データのプライバシ保護を強化するための有望なアプローチである。
本稿では,非教師付きフェデレート学習に基づくプロトタイプ表現蒸留である'ProtoFL'を提案する。
正規化フローに基づく局所的な一クラス分類器を導入し,データ制限による性能向上を図る。
論文 参考訳(メタデータ) (2023-07-23T22:48:07Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Learning to Classify Intents and Slot Labels Given a Handful of Examples [22.783338548129983]
インテント分類(IC)とスロットフィリング(SF)は、ほとんどのゴール指向対話システムにおいて中核的なコンポーネントである。
超低リソースシナリオにおいて、トレーニング時に見えないクラスにおいて、ICモデルとSFモデルの性能を研究・改善するために、新しい数ショット学習タスクである、数ショットのIC/SFを提案する。
モデル非依存型メタラーニング(MAML)とプロトタイプネットワークという2つの一般的な数ショット学習アルゴリズムが,このベンチマークの微調整ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-04-22T18:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。