論文の概要: h2oGPT: Democratizing Large Language Models
- arxiv url: http://arxiv.org/abs/2306.08161v1
- Date: Tue, 13 Jun 2023 22:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 22:44:31.766860
- Title: h2oGPT: Democratizing Large Language Models
- Title(参考訳): h2ogpt: 大きな言語モデルの民主化
- Authors: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian
Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan
Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier,
SriSatish Ambati
- Abstract要約: h2oGPTは、ジェネレーティブ事前学習トランスフォーマー(GPT)に基づいたLarge Language Models(LLM)の作成と使用のためのオープンソースのコードリポジトリのスイートである。
このプロジェクトの目的は、クローズドソースのGPTに対して、世界で最高のオープンソース代替品を作ることです。
- 参考スコア(独自算出の注目度): 1.8043055303852882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Large Language Models (LLMs) such as GPT-4 represent a revolution
in AI due to their real-world applications though natural language processing.
However, they also pose many significant risks such as the presence of biased,
private, or harmful text, and the unauthorized inclusion of copyrighted
material.
We introduce h2oGPT, a suite of open-source code repositories for the
creation and use of Large Language Models (LLMs) based on Generative Pretrained
Transformers (GPTs). The goal of this project is to create the world's best
truly open-source alternative to closed-source GPTs. In collaboration with and
as part of the incredible and unstoppable open-source community, we open-source
several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for
commercial use under fully permissive Apache 2.0 licenses. Included in our
release is 100% private document search using natural language.
Open-source language models help boost AI development and make it more
accessible and trustworthy. They lower entry hurdles, allowing people and
groups to tailor these models to their needs. This openness increases
innovation, transparency, and fairness. An open-source strategy is needed to
share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.
- Abstract(参考訳): gpt-4のような大規模言語モデル(llm)の基盤は、自然言語処理ではなく現実世界のアプリケーションのためにaiに革命をもたらす。
しかし、それらはまた、偏りのある、プライベートな、または有害なテキストの存在や、著作権のある素材の無許可包含など、多くの重大なリスクをもたらしている。
我々は、ジェネレーティブ事前学習トランスフォーマー(GPT)に基づくLarge Language Models(LLM)の作成と使用のためのオープンソースのコードリポジトリであるh2oGPTを紹介する。
このプロジェクトの目的は、クローズドソースgptsの世界で最高のオープンソース代替物を作ることです。
7億から40億のパラメータの微調整されたh2oGPTモデルをオープンソースとして公開し、完全に寛容なApache 2.0ライセンスの下で商用利用できるようにしました。
リリースには自然言語による100%プライベートドキュメント検索が含まれています。
オープンソースの言語モデルは、AI開発を促進し、よりアクセシビリティと信頼性を高めるのに役立つ。
参入ハードルを低くし、人々やグループがこれらのモデルをニーズに合わせて調整できるようにします。
この開放性はイノベーション、透明性、公平性を高める。
オープンソース戦略は、AIのメリットを公平に共有するために必要であり、H2O.aiはAIとLLMの民主化を継続する。
関連論文リスト
- Free to play: UN Trade and Development's experience with developing its own open-source Retrieval Augmented Generation Large Language Model application [0.0]
UNCTADは、独自のオープンソースのRetrieval Augmented Generation (RAG) LLMアプリケーションを探索、開発している。
RAGは、大規模言語モデルを組織のドメインや作業に意識し、より有用なものにします。
アプリを生成するために開発された3つのライブラリ、ドキュメント処理と統計解析用のnlp_pipeline、ローカルなRAG LLMを実行する local_rag_llm、ユーザインターフェース用の streamlit_rag は、DockerfilesでPyPIとGitHubで公開されている。
論文 参考訳(メタデータ) (2024-06-18T14:23:54Z) - Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order [123.7406091753529]
Aurora-Mは、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードで訓練された15Bパラメータの多言語オープンソースモデルである。
これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。
様々なタスクや言語で厳格に評価されており、破滅的な忘れ物に対する頑丈さを示している。
論文 参考訳(メタデータ) (2024-03-30T15:38:54Z) - Is open source software culture enough to make AI a common ? [0.0]
言語モデル(LM)は人工知能(AI)の分野でますます普及している
この疑問は、ユーザコミュニティによって管理され、維持される共通のリソースであるかどうかというものである。
LMを作成するのに必要なデータとリソースをコモンズとして扱うことの潜在的な利点を強調します。
論文 参考訳(メタデータ) (2024-03-19T14:43:52Z) - TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese [0.0]
大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。
本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発について述べる。
これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。
論文 参考訳(メタデータ) (2024-01-30T00:25:54Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - H2O Open Ecosystem for State-of-the-art Large Language Models [10.04351591653126]
大規模言語モデル(LLM)はAIの革命を表している。
また、バイアスのある、プライベートな、著作権のある、有害なテキストの存在など、多くの重大なリスクも生じている。
LLMの開発とテストのための完全なオープンソースエコシステムを導入します。
論文 参考訳(メタデータ) (2023-10-17T09:40:58Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Open-Sourcing Highly Capable Foundation Models: An evaluation of risks,
benefits, and alternative methods for pursuing open-source objectives [6.575445633821399]
AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、議論を巻き起こした。
本稿では,高機能基盤モデルのオープンソース化のリスクとメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-29T17:03:45Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。