Fugu-MT 論文翻訳(概要): h2oGPT: Democratizing Large Language Models

論文の概要: h2oGPT: Democratizing Large Language Models

arxiv url: http://arxiv.org/abs/2306.08161v2
Date: Fri, 16 Jun 2023 17:48:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-19 16:45:29.211942
Title: h2oGPT: Democratizing Large Language Models
Title（参考訳）: h2ogpt: 大きな言語モデルの民主化
Authors: Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati
Abstract要約: 我々は、大規模言語モデルの作成と使用のためのオープンソースのコードリポジトリであるh2oGPTを紹介します。このプロジェクトの目的は、クローズドソースアプローチに対して、世界で最高のオープンソース代替品を作ることです。
参考スコア（独自算出の注目度）: 1.8043055303852882
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Applications built on top of Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their human-level capabilities in natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of LLMs based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world's best truly open-source alternative to closed-source approaches. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100\% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.
Abstract（参考訳）: GPT-4のようなLarge Language Models(LLM)上に構築されたアプリケーションは、自然言語処理における人間レベルの能力のため、AIの革命を表している。しかし、それらはまた、偏りのある、プライベートな、または有害なテキストの存在や、著作権のある素材の無許可包含など、多くの重大なリスクをもたらしている。我々は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)に基づくLLMの作成と使用のためのオープンソースのコードリポジトリであるh2oGPTを紹介する。このプロジェクトの目的は、クローズドソースアプローチの世界で最高のオープンソース代替物を作ることです。 7億から40億のパラメータの微調整されたh2oGPTモデルをオープンソースとして公開し、完全に寛容なApache 2.0ライセンスの下で商用利用できるようにしました。リリースには自然言語を使った100\%のプライベートドキュメント検索が含まれています。オープンソースの言語モデルは、AI開発を促進し、よりアクセシビリティと信頼性を高めるのに役立つ。参入ハードルを低くし、人々やグループがこれらのモデルをニーズに合わせて調整できるようにします。この開放性はイノベーション、透明性、公平性を高める。オープンソース戦略は、AIのメリットを公平に共有するために必要であり、H2O.aiはAIとLLMの民主化を継続する。

関連論文リスト

If open source is to win, it must go public [11.101077002196202]
オープンソースプロジェクトは、透過的で広く使用可能な機械学習モデルとシステムを作成するという、信じられないほどの進歩を遂げています。しかし、オープンソースだけでは、AIへのアクセスを完全に民主化する上で、課題に直面します。この記事では、オープンソースAIはパブリックAIによって補完されなければならない、と論じる。
論文参考訳（メタデータ） (2025-07-12T14:16:28Z)
Comprehensive Analysis of Transparency and Accessibility of ChatGPT, DeepSeek, And other SoTA Large Language Models [2.6900047294457683]
オープンソース人工知能(AI)に関する議論が増えているが、既存の研究は、最先端(SoTA)大規模言語モデル(LLM)の透明性とアクセシビリティに関する議論を欠いている。この研究は、ChatGPT、DeepSeek、LLaMAなどを含む過去5年間のSoTA LLMを批判的に分析し、透明性標準への準拠と部分的開放性の影響を評価する。我々の研究結果によると、いくつかのモデルはオープンソースとしてラベル付けされているが、必ずしも完全にオープンソースであるとは限らない。
論文参考訳（メタデータ） (2025-02-21T23:53:13Z)
The Open Source Advantage in Large Language Models (LLMs) [0.0]
大規模言語モデル(LLM)は急速に進歩した自然言語処理を持ち、テキスト生成、機械翻訳、ドメイン固有の推論といったタスクにおいて大きなブレークスルーを引き起こしている。 GPT-4のようなクローズドソースモデルは、最先端のパフォーマンスを提供するが、アクセシビリティを制限し、外部の監視を行う。 LLaMAやMixtralといったオープンソースフレームワークはアクセスを民主化し、コラボレーションを促進し、多様なアプリケーションをサポートする。
論文参考訳（メタデータ） (2024-12-16T17:32:11Z)
Free to play: UN Trade and Development's experience with developing its own open-source Retrieval Augmented Generation Large Language Model application [0.0]
UNCTADは、独自のオープンソースのRetrieval Augmented Generation (RAG) LLMアプリケーションを探索、開発している。 RAGは、大規模言語モデルを組織のドメインや作業に意識し、より有用なものにします。アプリを生成するために開発された3つのライブラリ、ドキュメント処理と統計解析用のnlp_pipeline、ローカルなRAG LLMを実行する local_rag_llm、ユーザインターフェース用の streamlit_rag は、DockerfilesでPyPIとGitHubで公開されている。
論文参考訳（メタデータ） (2024-06-18T14:23:54Z)
Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order [123.7406091753529]
Aurora-Mは、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードで訓練された15Bパラメータの多言語オープンソースモデルである。これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。様々なタスクや言語で厳格に評価されており、破滅的な忘れ物に対する頑丈さを示している。
論文参考訳（メタデータ） (2024-03-30T15:38:54Z)
Is open source software culture enough to make AI a common ? [0.0]
言語モデル(LM)は人工知能(AI)の分野でますます普及しているこの疑問は、ユーザコミュニティによって管理され、維持される共通のリソースであるかどうかというものである。 LMを作成するのに必要なデータとリソースをコモンズとして扱うことの潜在的な利点を強調します。
論文参考訳（メタデータ） (2024-03-19T14:43:52Z)
TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese [0.0]
大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発について述べる。これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。
論文参考訳（メタデータ） (2024-01-30T00:25:54Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文参考訳（メタデータ） (2023-10-24T23:45:57Z)
H2O Open Ecosystem for State-of-the-art Large Language Models [10.04351591653126]
大規模言語モデル(LLM)はAIの革命を表している。また、バイアスのある、プライベートな、著作権のある、有害なテキストの存在など、多くの重大なリスクも生じている。 LLMの開発とテストのための完全なオープンソースエコシステムを導入します。
論文参考訳（メタデータ） (2023-10-17T09:40:58Z)
On the Safety of Open-Sourced Large Language Models: Does Alignment Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文参考訳（メタデータ） (2023-10-02T19:22:01Z)
Open-Sourcing Highly Capable Foundation Models: An evaluation of risks, benefits, and alternative methods for pursuing open-source objectives [6.575445633821399]
AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、議論を巻き起こした。本稿では,高機能基盤モデルのオープンソース化のリスクとメリットについて考察する。
論文参考訳（メタデータ） (2023-09-29T17:03:45Z)
Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。 Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文参考訳（メタデータ） (2023-09-19T04:13:22Z)
A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。 Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。 GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文参考訳（メタデータ） (2022-02-26T15:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。