論文の概要: LOLAMEME: Logic, Language, Memory, Mechanistic Framework
- arxiv url: http://arxiv.org/abs/2406.02592v1
- Date: Fri, 31 May 2024 21:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:49:24.580650
- Title: LOLAMEME: Logic, Language, Memory, Mechanistic Framework
- Title(参考訳): LOLAMEME:ロジック、言語、メモリ、メカニスティックフレームワーク
- Authors: Jay Desai, Xiaobo Guo, Srinivasan H. Sengamedu,
- Abstract要約: 我々は、現在の機械的スキームを拡張して、潜在構造のような言語の論理、記憶、ニュアンスを組み込む。
提案するフレームワークはLOLAMEMEと呼ばれ、LOLAMEMEの2つのインスタンス(LoLa言語とMeMe言語)を提供する。
次に、トランスフォーマーベースGPT-2と畳み込みベースHyenaの2つの生成言語モデルアーキテクチャについて検討する。
- 参考スコア(独自算出の注目度): 3.992091862806936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models has achieved superhuman breadth with unprecedented depth. At the same time, the language models are mostly black box models and the underlying mechanisms for performance have been evaluated using synthetic or mechanistic schemes. We extend current mechanistic schemes to incorporate Logic, memory, and nuances of Language such as latent structure. The proposed framework is called LOLAMEME and we provide two instantiations of LOLAMEME: LoLa and MeMe languages. We then consider two generative language model architectures: transformer-based GPT-2 and convolution-based Hyena. We propose the hybrid architecture T HEX and use LOLAMEME framework is used to compare three architectures. T HEX outperforms GPT-2 and Hyena on select tasks.
- Abstract(参考訳): 大規模言語モデルの性能は、前例のない深さで超人的な広さを達成した。
同時に、言語モデルは大部分がブラックボックスモデルであり、その基盤となる性能メカニズムは、合成的または機械的スキームを用いて評価されている。
我々は、現在の機械的スキームを拡張して、潜在構造のような言語の論理、記憶、ニュアンスを組み込む。
提案するフレームワークはLOLAMEMEと呼ばれ、LOLAMEMEの2つのインスタンス(LoLa言語とMeMe言語)を提供する。
次に、トランスフォーマーベースGPT-2と畳み込みベースHyenaの2つの生成言語モデルアーキテクチャについて検討する。
本稿では,ハイブリッドアーキテクチャT HEXを提案し,LOLAMEMEフレームワークを用いて3つのアーキテクチャを比較する。
T HEX は GPT-2 と Hyena より優れている。
関連論文リスト
- ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing [8.721337884357027]
DLG-MoEは、バイリンガルおよびCSシナリオ向けに最適化された動的言語グループベースのMoEである。
このモデルは、非並列な柔軟性を持ちながら、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-26T08:03:07Z) - EVLM: An Efficient Vision-Language Model for Visual Understanding [18.794601813330715]
本稿では,計算コストを最小化する効率的なマルチモーダル言語モデルを提案する。
画像キャプションやビデオキャプションといったタスクにおいて,公開マルチモーダルベンチマークの競合スコアを達成し,良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-07-19T10:09:51Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - BLCU-ICALL at SemEval-2022 Task 1: Cross-Attention Multitasking
Framework for Definition Modeling [16.794041736487323]
本稿では,SemEval-2022 Task 1で使用されるBLCU-ICALLシステムについて述べる。
タスクを探索するトランスフォーマーベースのマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T02:33:28Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Dialogue State Tracking with a Language Model using Schema-Driven
Prompting [18.83983018421701]
本稿では,スキーマ駆動型プロンプトを用いてタスク認識履歴エンコーディングを行う言語モデリング手法の新たなバリエーションを提案する。
我々の純生成システムは、MultiWOZ 2.2の最先端性能を実現し、MultiWOZ 2.1とM2Mの2つのベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2021-09-15T18:11:25Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。