論文の概要: KunlunBaize: LLM with Multi-Scale Convolution and Multi-Token Prediction Under TransformerX Framework
- arxiv url: http://arxiv.org/abs/2503.04784v2
- Date: Tue, 11 Mar 2025 01:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:49.540743
- Title: KunlunBaize: LLM with Multi-Scale Convolution and Multi-Token Prediction Under TransformerX Framework
- Title(参考訳): KunlunBaize: TransformerXフレームワークによるマルチスケールコンボリューションとマルチトークン予測を備えたLLM
- Authors: Cheng Li, Jiexiong Liu, Yixuan Chen, Yanqin Jia, Zhepeng Li,
- Abstract要約: 大規模言語モデルは、計算効率の低下、勾配の消失、複雑な特徴の相互作用を捉えることの難しさといった課題に直面している。
このフレームワークは、学習可能な残留スキップ接続機構、TransformerXモジュール、マルチスケールの畳み込みと適応アクティベーション機能を統合したトランスフォーマーベースのコンポーネント、マルチトークン予測相互作用モジュールを備えている。
- 参考スコア(独自算出の注目度): 3.5887147125977457
- License:
- Abstract: Large language models have demonstrated remarkable performance across various tasks, yet they face challenges such as low computational efficiency, gradient vanishing, and difficulties in capturing complex feature interactions. To address these limitations, a novel framework has been proposed. This framework incorporates a learnable dense residual skip connection mechanism, a TransformerX module a transformer based component integrating multiscale convolution and adaptive activation functions and a multitoken prediction interaction module. The learnable dense residual connections enhance information flow and feature capture across layers. Within the TransformerX module, large convolutional kernels aggregate semantic information from extensive text segments, while smaller convolutions focus on local word order and syntactic structures. The adaptive activation function dynamically adjusts its parameters based on the semantic features of the input text, improving the model's ability to handle diverse semantic expressions and complex relationships. The multitoken prediction module boosts data utilization and accelerates inference by predicting multiple future tokens. These components significantly enhance the performance and efficiency of large language models.
- Abstract(参考訳): 大規模言語モデルは様々なタスクにおいて顕著な性能を示してきたが、計算効率の低下、勾配の消失、複雑な特徴の相互作用を捉えることの難しさといった課題に直面している。
これらの制限に対処するため、新しいフレームワークが提案されている。
このフレームワークは、学習可能な残留スキップ接続機構、TransformerXモジュール、マルチスケール畳み込みと適応アクティベーション機能を組み合わせたトランスフォーマーベースのコンポーネント、およびマルチトークン予測相互作用モジュールを備えている。
学習可能な高密度接続は、レイヤ間の情報フローと特徴キャプチャを高める。
TransformerXモジュール内では、大きな畳み込みカーネルが広範なテキストセグメントから意味情報を集約し、小さな畳み込みは局所的な単語順序と構文構造に重点を置いている。
適応アクティベーション関数は入力テキストの意味的特徴に基づいてパラメータを動的に調整し、多様な意味表現や複雑な関係を扱うモデルの能力を向上させる。
マルチトークン予測モジュールはデータ利用を促進し、将来的なトークンを予測することで推論を加速する。
これらのコンポーネントは、大きな言語モデルの性能と効率を大幅に向上させる。
関連論文リスト
- ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Efficient Transformers with Dynamic Token Pooling [11.28381882347617]
言語モデルに動的プール機構を組み、セグメント境界を自己回帰的に予測する。
その結果、動的プーリングはバニラ変換器よりも高速かつ高精度であることがわかった。
論文 参考訳(メタデータ) (2022-11-17T18:39:23Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。