論文の概要: Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land
- arxiv url: http://arxiv.org/abs/2404.17625v2
- Date: Thu, 4 Jul 2024 14:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:14:17.288582
- Title: Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land
- Title(参考訳): Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land
- Authors: Simone Scardapane,
- Abstract要約: ニューラルネットワークは、大きな言語モデル、音声書き起こしシステム、分子発見アルゴリズム、ロボット工学など、私たちを取り巻くものです。
このプライマーは、Alice(アリス)氏のような、この奇妙な異なる不思議の国に足を踏み入れた人のために想像された、この魅力的な分野の紹介だ。
- 参考スコア(独自算出の注目度): 5.540111184767844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks surround us, in the form of large language models, speech transcription systems, molecular discovery algorithms, robotics, and much more. Stripped of anything else, neural networks are compositions of differentiable primitives, and studying them means learning how to program and how to interact with these models, a particular example of what is called differentiable programming. This primer is an introduction to this fascinating field imagined for someone, like Alice, who has just ventured into this strange differentiable wonderland. I overview the basics of optimizing a function via automatic differentiation, and a selection of the most common designs for handling sequences, graphs, texts, and audios. The focus is on a intuitive, self-contained introduction to the most important design techniques, including convolutional, attentional, and recurrent blocks, hoping to bridge the gap between theory and code (PyTorch and JAX) and leaving the reader capable of understanding some of the most advanced models out there, such as large language models (LLMs) and multimodal architectures.
- Abstract(参考訳): ニューラルネットワークは、大きな言語モデル、音声書き起こしシステム、分子発見アルゴリズム、ロボット工学など、私たちを取り巻くものです。
ニューラルネットワークは、他の何よりも、微分可能なプリミティブの合成であり、それらを研究することは、これらのモデルとどのように相互作用するかを学ぶことを意味する。
このプライマーは、Alice(アリス)氏のような、この奇妙な異なる不思議の国に足を踏み入れた人のために想像された、この魅力的な分野の紹介だ。
自動微分による関数の最適化の基礎と、シーケンス、グラフ、テキスト、オーディオを扱うための最も一般的な設計の選定について概観する。
その焦点は、畳み込み(convolutional)、注意( attentional)、繰り返し発生するブロック(recurrent block)など、最も重要な設計テクニックへの直感的で自己完結した導入であり、理論とコード(PyTorchとJAX)のギャップを埋めることを望んでおり、読者は、大きな言語モデル(LLM)やマルチモーダルアーキテクチャ(multimodal architectures)といった、現在最も先進的なモデルを理解することができる。
関連論文リスト
- Engineering A Large Language Model From Scratch [0.0]
AtinukeはTransformerベースのニューラルネットワークで、さまざまな言語タスクのパフォーマンスを最適化する。
特徴を抽出し、複雑なマッピングを学習することで、人間のような言語をエミュレートすることができる。
システムは、解釈可能で堅牢なまま、自然言語タスクの最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-01-30T04:29:48Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Transformadores: Fundamentos teoricos y Aplicaciones [0.40611352512781856]
Transformersは、元々自然言語処理用に設計されたニューラルネットワークアーキテクチャである。
その特徴的な特徴は、自分自身のシーケンスへの注意に基づく自己注意システムである。
この論文は、スペイン語圏のコミュニティに科学的知識をもたらすためにスペイン語で書かれている。
論文 参考訳(メタデータ) (2023-02-18T13:30:32Z) - Join-Chain Network: A Logical Reasoning View of the Multi-head Attention
in Transformer [59.73454783958702]
本稿では,多くの結合演算子を連結して出力論理式をモデル化するシンボリック推論アーキテクチャを提案する。
特に,このような結合鎖のアンサンブルが'ツリー構造'の1次論理式であるFOETの広い部分集合を表現できることを実証する。
変圧器における多頭部自己保持モジュールは,確率的述語空間における結合作用素の結合境界を実装する特別なニューラル演算子として理解することができる。
論文 参考訳(メタデータ) (2022-10-06T07:39:58Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - A Differentiable Recipe for Learning Visual Non-Prehensile Planar
Manipulation [63.1610540170754]
視覚的非包括的平面操作の問題に焦点をあてる。
本稿では,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャを提案する。
モジュラーで完全に差別化可能なアーキテクチャは、目に見えないオブジェクトやモーションの学習専用手法よりも優れていることが分かりました。
論文 参考訳(メタデータ) (2021-11-09T18:39:45Z) - Automated Source Code Generation and Auto-completion Using Deep
Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。
それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文 参考訳(メタデータ) (2020-09-16T15:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。