論文の概要: Dynamic Large Language Models on Blockchains
- arxiv url: http://arxiv.org/abs/2307.10549v1
- Date: Thu, 20 Jul 2023 03:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:58:32.628999
- Title: Dynamic Large Language Models on Blockchains
- Title(参考訳): ブロックチェーン上の動的大規模言語モデル
- Authors: Yuanhao Gong
- Abstract要約: ブロックチェーン上で動的に大規模言語モデルをトレーニングし、デプロイすることを提案する。
ブロックチェーンは、セキュアで分散化された透明なシステムであり、トランザクションのためのタンパー保護台帳の作成を可能にする。
我々の手法は,大規模言語モデルを開発するための新しい方法を提供し,次世代人工知能システムに光を当てる。
- 参考スコア(独自算出の注目度): 5.9622541907827875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training and deploying the large language models requires a large mount of
computational resource because the language models contain billions of
parameters and the text has thousands of tokens. Another problem is that the
large language models are static. They are fixed after the training process. To
tackle these issues, in this paper, we propose to train and deploy the dynamic
large language model on blockchains, which have high computation performance
and are distributed across a network of computers. A blockchain is a secure,
decentralized, and transparent system that allows for the creation of a
tamper-proof ledger for transactions without the need for intermediaries. The
dynamic large language models can continuously learn from the user input after
the training process. Our method provides a new way to develop the large
language models and also sheds a light on the next generation artificial
intelligence systems.
- Abstract(参考訳): 言語モデルには数十億のパラメータが含まれており、テキストには数千のトークンがあるため、大規模な言語モデルの訓練とデプロイには大量の計算資源が必要である。
もう一つの問題は、大きな言語モデルが静的であることだ。
トレーニングプロセス後に修正される。
本稿では,これらの問題に対処するために,計算性能が高く,コンピュータネットワークに分散したブロックチェーン上での動的大規模言語モデルのトレーニングと展開を提案する。
ブロックチェーンはセキュアで分散化された透明なシステムであり、仲介者不要のトランザクションのためのタンパー保護台帳の作成を可能にする。
動的大規模言語モデルは、トレーニングプロセス後にユーザの入力から継続的に学習することができる。
我々の手法は,大規模言語モデルを開発するための新しい方法を提供し,次世代人工知能システムに光を当てる。
関連論文リスト
- Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - WECHSEL: Effective initialization of subword embeddings for
cross-lingual transfer of monolingual language models [3.6878069324996616]
WECHSELと呼ばれる手法を導入し、新しい言語に英語モデルを転送する。
We use WECHSEL to transfer GPT-2 and RoBERTa models to four other languages。
論文 参考訳(メタデータ) (2021-12-13T12:26:02Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。