論文の概要: Conformer LLMs -- Convolution Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2307.00461v1
- Date: Sun, 2 Jul 2023 03:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:05:10.556309
- Title: Conformer LLMs -- Convolution Augmented Large Language Models
- Title(参考訳): conformer llms --畳み込みによる大規模言語モデルの拡張
- Authors: Prateek Verma
- Abstract要約: この研究は、大きな言語モデル(LLM)のための2つの一般的なニューラルネットワークブロック、すなわち畳み込み層とトランスフォーマーを構築する。
トランスフォーマーデコーダは、いくつかのモダリティ上の長距離依存関係を効果的にキャプチャし、機械学習におけるモダンな進歩の中核となるバックボーンを形成する。
この研究は、大規模言語モデリングのための音声アプリケーション以外の因果的な設定で統合し、適応できる頑健な音声アーキテクチャを示す。
- 参考スコア(独自算出の注目度): 2.8935588665357077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work builds together two popular blocks of neural architecture, namely
convolutional layers and Transformers, for large language models (LLMs).
Non-causal conformers are used ubiquitously in automatic speech recognition.
This work aims to adapt these architectures in a causal setup for training
LLMs. Transformers decoders effectively capture long-range dependencies over
several modalities and form a core backbone of modern advancements in machine
learning. Convolutional architectures have been popular in extracting features
in domains such as raw 1-D signals, speech, and images, to name a few. In this
paper, by combining local and global dependencies over latent representations
using causal convolutional filters and Transformer, we achieve significant
gains in performance. This work showcases a robust speech architecture that can
be integrated and adapted in a causal setup beyond speech applications for
large-scale language modeling.
- Abstract(参考訳): この研究は、大きな言語モデル(LLM)のための2つの一般的なニューラルネットワークブロック、すなわち畳み込み層とトランスフォーマーを構築する。
非コーサルコンフォーマは、自動音声認識においてユビキタスに使用される。
この作業は、これらのアーキテクチャをllmトレーニングのための因果設定に適応することを目的としている。
トランスフォーマーデコーダは、複数のモードにわたる長距離依存関係を効果的にキャプチャし、機械学習の現代的な進歩のコアバックボーンを形成する。
畳み込み型アーキテクチャは、生の1次元信号、音声、画像などのドメインの特徴を抽出することで人気があり、いくつかを挙げている。
本稿では,因果畳み込みフィルタとTransformerを用いた潜在表現に対する局所的および大域的依存関係を組み合わせることで,性能の大幅な向上を実現する。
本研究は,大規模言語モデリングのための音声アプリケーションを超えて,因果設定に統合・適応可能なロバストな音声アーキテクチャを示す。
関連論文リスト
- Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients [12.008071873475169]
フェデレートラーニング(Federated Learning)とは、異なるクライアント上でデータをローカルに保ちながら、共有予測モデルを共同で学習するテクニックである。
本稿では, 早期解を用いた動的アーキテクチャを用いて, 入力や動作条件に応じて, その処理を適応させることができることを提案する。
このソリューションは、部分的なトレーニングメソッドの領域に該当し、2つのメリットをもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:32:37Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Branchformer: Parallel MLP-Attention Architectures to Capture Local and
Global Context for Speech Recognition and Understanding [41.928263518867816]
コンフォーマーは多くの音声処理タスクに有効であることが証明されている。
そこで我々は,より柔軟で解釈可能でカスタマイズ可能なエンコーダであるブランチフォーマーを提案する。
論文 参考訳(メタデータ) (2022-07-06T21:08:10Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。