論文の概要: Practical token pruning for foundation models in few-shot conversational virtual assistant systems
- arxiv url: http://arxiv.org/abs/2408.11799v1
- Date: Wed, 21 Aug 2024 17:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 15:58:35.777143
- Title: Practical token pruning for foundation models in few-shot conversational virtual assistant systems
- Title(参考訳): 数発会話型バーチャルアシスタントシステムにおける基礎モデルのための実践的トークンプルーニング
- Authors: Haode Qi, Cheng Qian, Jian Ni, Pratyush Singh, Reza Fazeli, Gengyu Wang, Zhongzheng Shu, Eric Wayne, Juergen Bross,
- Abstract要約: コントラスト学習目標を持つ変圧器に基づく文埋め込みモデルを事前学習し、学習意図分類モデルの特徴としてモデルの埋め込みを利用する。
提案手法は,数ショットのシナリオに対して最先端の結果を達成し,一般的な意図分類ベンチマークにおいて,他の商用ソリューションよりも優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 6.986560111427867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In an enterprise Virtual Assistant (VA) system, intent classification is the crucial component that determines how a user input is handled based on what the user wants. The VA system is expected to be a cost-efficient SaaS service with low training and inference time while achieving high accuracy even with a small number of training samples. We pretrain a transformer-based sentence embedding model with a contrastive learning objective and leverage the embedding of the model as features when training intent classification models. Our approach achieves the state-of-the-art results for few-shot scenarios and performs better than other commercial solutions on popular intent classification benchmarks. However, generating features via a transformer-based model increases the inference time, especially for longer user inputs, due to the quadratic runtime of the transformer's attention mechanism. On top of model distillation, we introduce a practical multi-task adaptation approach that configures dynamic token pruning without the need for task-specific training for intent classification. We demonstrate that this approach improves the inference speed of popular sentence transformer models without affecting model performance.
- Abstract(参考訳): エンタプライズ仮想アシスタント(VA)システムでは、ユーザが望むものに基づいてユーザ入力がどのように処理されるかを決定するために、インテント分類が不可欠である。
VAシステムは、少数のトレーニングサンプルであっても高い精度を達成しつつ、トレーニング時間と推論時間の少ないコスト効率のSaaSサービスとして期待されている。
コントラスト学習目標を持つ変圧器に基づく文埋め込みモデルを事前学習し、学習意図分類モデルの特徴としてモデルの埋め込みを利用する。
提案手法は,数ショットのシナリオに対して最先端の結果を達成し,一般的な意図分類ベンチマークにおいて,他の商用ソリューションよりも優れた性能を発揮する。
しかし、変換器のアテンション機構の二次的実行により、特に長いユーザ入力に対して、変換器ベースのモデルによる機能生成は推論時間を増加させる。
モデル蒸留に加えて,目的分類のためのタスク固有のトレーニングを必要とせず,動的トークンプルーニングを構成する,実用的なマルチタスク適応手法を導入する。
提案手法は, モデル性能に影響を与えることなく, 一般的な文変換器モデルの推論速度を向上させることを実証する。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。
再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:41:13Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Enhancing cross-domain detection: adaptive class-aware contrastive
transformer [15.666766743738531]
対象領域の不十分なラベルは、クラス不均衡とモデル性能劣化の問題を悪化させる。
逆学習と平均教師フレームワークに基づくクラス対応クロスドメイン検出変換器を提案する。
論文 参考訳(メタデータ) (2024-01-24T07:11:05Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Discriminative and Generative Transformer-based Models For Situation
Entity Classification [8.029049649310211]
我々は、状況エンティティ(SE)分類タスクを、利用可能なトレーニングデータの量に応じて再検討する。
変換器を用いた変分オートエンコーダを用いて文を低次元の潜在空間に符号化する。
論文 参考訳(メタデータ) (2021-09-15T17:07:07Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。