論文の概要: Anatomy of Neural Language Models
- arxiv url: http://arxiv.org/abs/2401.03797v1
- Date: Mon, 8 Jan 2024 10:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:58:17.953081
- Title: Anatomy of Neural Language Models
- Title(参考訳): 神経言語モデルの解剖学
- Authors: Majd Saleh and St\'ephane Paquelet
- Abstract要約: このチュートリアルは、ニューラルネットワークLMを詳細に、単純化され、曖昧な数学的フレームワークで説明することを目的としている。
BERT や GPT2 のような広く使われているモデルの具体例を探索する。
言語モデリングのようなタスクで事前訓練されたトランスフォーマーは、コンピュータビジョンや時系列アプリケーションに広く採用されているため、そのようなソリューションのいくつかの例を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI and transfer learning fields have experienced remarkable
advancements in recent years especially in the domain of Natural Language
Processing (NLP). Transformers were at the heart of these advancements where
the cutting-edge transformer-based Language Models (LMs) enabled new
state-of-the-art results in a wide spectrum of applications. While the number
of research works involving neural LMs is exponentially increasing, their vast
majority are high-level and far from self-contained. Consequently, a deep
understanding of the literature in this area is a tough task especially at the
absence of a unified mathematical framework explaining the main types of neural
LMs. We address the aforementioned problem in this tutorial where the objective
is to explain neural LMs in a detailed, simplified and unambiguous mathematical
framework accompanied with clear graphical illustrations. Concrete examples on
widely used models like BERT and GPT2 are explored. Finally, since transformers
pretrained on language-modeling-like tasks have been widely adopted in computer
vision and time series applications, we briefly explore some examples of such
solutions in order to enable readers understand how transformers work in the
aforementioned domains and compare this use with the original one in NLP.
- Abstract(参考訳): 生成的AIと伝達学習分野は近年,特に自然言語処理(NLP)分野において顕著な進歩を遂げている。
トランスフォーマーは、最先端のトランスフォーマーベースの言語モデル(LM)によって、様々な応用において新しい最先端の成果がもたらされたこれらの進歩の中心であった。
神経lsmに関する研究は指数関数的に増加しているが、その大多数はハイレベルであり、自己完結にはほど遠い。
したがって、この分野における文献の深い理解は、特にニューラルLMの主要なタイプを説明する統一された数学的枠組みが欠如している場合の難しい課題である。
このチュートリアルでは、視覚的図形が明確で、複雑で、単純化され、曖昧な数学的枠組みで、ニューラルLMを説明することが目的である。
BERT や GPT2 のような広く使われているモデルの具体例を探索する。
最後に,言語モデリングを前提としたトランスフォーマーがコンピュータビジョンや時系列アプリケーションで広く採用されていることから,前述の領域でのトランスフォーマーの動作を読者が理解できるように,このようなソリューションのいくつかの例を,NLPのオリジナルと対比する。
関連論文リスト
- Hidden Holes: topological aspects of language models [1.1172147007388977]
我々は,GPTに基づく大規模言語モデルにおけるトポロジ的構造の発達について,訓練中の深度と時間にわたって検討した。
後者は、すべての自然言語に共通する変化パターンを持つが、合成されたデータがない、よりトポロジ的な複雑さを示すことを示す。
論文 参考訳(メタデータ) (2024-06-09T14:25:09Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - A Survey on Large Language Models from Concept to Implementation [4.219910716090213]
近年のLarge Language Models (LLM) の進歩により、自然言語処理(NLP)アプリケーションの範囲が拡大している。
本稿では,これらのモデルの多面的応用について検討し,GPTシリーズに着目した。
この調査は、コーディングや問題解決といった従来のタスクに革命をもたらす人工知能(AI)駆動ツールの変革的な影響に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-27T19:35:41Z) - Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。