論文の概要: DIET: Lightweight Language Understanding for Dialogue Systems
- arxiv url: http://arxiv.org/abs/2004.09936v3
- Date: Mon, 11 May 2020 06:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 06:46:48.690437
- Title: DIET: Lightweight Language Understanding for Dialogue Systems
- Title(参考訳): DIET:対話システムのための軽量言語理解
- Authors: Tanja Bunk, Daksh Varshneya, Vladimir Vlasov, Alan Nichol
- Abstract要約: 大規模な事前学習型言語モデルは、GLUEやSuperGLUEのような言語理解ベンチマークにおいて、驚くべき結果を示している。
本稿では,Dual Intent and Entity Transformer (DIET)アーキテクチャを導入し,意図と実体予測に対する事前学習表現の有効性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained language models have shown impressive results on
language understanding benchmarks like GLUE and SuperGLUE, improving
considerably over other pre-training methods like distributed representations
(GloVe) and purely supervised approaches. We introduce the Dual Intent and
Entity Transformer (DIET) architecture, and study the effectiveness of
different pre-trained representations on intent and entity prediction, two
common dialogue language understanding tasks. DIET advances the state of the
art on a complex multi-domain NLU dataset and achieves similarly high
performance on other simpler datasets. Surprisingly, we show that there is no
clear benefit to using large pre-trained models for this task, and in fact DIET
improves upon the current state of the art even in a purely supervised setup
without any pre-trained embeddings. Our best performing model outperforms
fine-tuning BERT and is about six times faster to train.
- Abstract(参考訳): 大規模な事前学習言語モデルは、GLUEやSuperGLUEのような言語理解ベンチマークで印象的な結果を示し、分散表現(GloVe)や純粋に教師付きアプローチのような他の事前学習方法よりも大幅に改善されている。
本稿では,2つの共通対話言語理解課題であるインテントとエンティティトランスフォーマ(diet)アーキテクチャを紹介し,インテントとエンティティ予測に対する異なる事前学習表現の有効性について検討する。
DIETは複雑なマルチドメインのNLUデータセット上で技術の現状を前進させ、他の単純なデータセット上でも同様に高いパフォーマンスを達成する。
意外なことに、このタスクに大規模な事前学習モデルを使用することには明確なメリットはなく、実際にDIETは、事前学習した埋め込みを伴わずに、純粋に管理された設定でも、最先端の技術を改良する。
私たちの最高のパフォーマンスモデルは、微調整のBERTよりも優れており、トレーニングの約6倍高速です。
関連論文リスト
- Language Grounded QFormer for Efficient Vision Language Understanding [25.432918254523344]
BLIP-2モデルで提案したクエリトランスフォーマー(QFormer)アプローチから着想を得た。
より効率的なQFormerベースの視覚言語アライメント法を提案する。
論文 参考訳(メタデータ) (2023-11-13T16:30:49Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文 参考訳(メタデータ) (2021-08-02T12:08:19Z) - A Comprehensive Comparison of Pre-training Language Models [0.5139874302398955]
私たちは、同じテキスト量と同じトレーニングステップで、トランスフォーマーベースのモデルのリストを事前トレーニングします。
実験結果から、BERTの原点における最も改善点は、短いテキスト理解のためにより文脈的な情報を取得するためにRNN層を追加することである。
論文 参考訳(メタデータ) (2021-06-22T02:12:29Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。