論文の概要: ChatGPT's One-year Anniversary: Are Open-Source Large Language Models
Catching up?
- arxiv url: http://arxiv.org/abs/2311.16989v4
- Date: Mon, 15 Jan 2024 09:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 00:38:32.251768
- Title: ChatGPT's One-year Anniversary: Are Open-Source Large Language Models
Catching up?
- Title(参考訳): ChatGPTの1周年 - オープンソースの大規模言語モデルは追いつくのか?
- Authors: Hailin Chen, Fangkai Jiao, Xingxuan Li, Chengwei Qin, Mathieu Ravaut,
Ruochen Zhao, Caiming Xiong, Shafiq Joty
- Abstract要約: ChatGPTは、AIのランドスケープ全体において、地震的な変化をもたらした。
モデルは人間の質問に答え、幅広いタスクのパネルで指示に従うことができることを示した。
クローズドソースのLLMは一般的にオープンソースよりも優れていますが、後者の進歩は急速に進んでいます。
これは研究だけでなく、ビジネスにも重要な意味を持つ。
- 参考スコア(独自算出の注目度): 71.12709925152784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Upon its release in late 2022, ChatGPT has brought a seismic shift in the
entire landscape of AI, both in research and commerce. Through
instruction-tuning a large language model (LLM) with supervised fine-tuning and
reinforcement learning from human feedback, it showed that a model could answer
human questions and follow instructions on a broad panel of tasks. Following
this success, interests in LLMs have intensified, with new LLMs flourishing at
frequent interval across academia and industry, including many start-ups
focused on LLMs. While closed-source LLMs (e.g., OpenAI's GPT, Anthropic's
Claude) generally outperform their open-source counterparts, the progress on
the latter has been rapid with claims of achieving parity or even better on
certain tasks. This has crucial implications not only on research but also on
business. In this work, on the first anniversary of ChatGPT, we provide an
exhaustive overview of this success, surveying all tasks where an open-source
LLM has claimed to be on par or better than ChatGPT.
- Abstract(参考訳): 2022年後半にリリースされたChatGPTは、研究と商業の両方において、AIのランドスケープ全体において、地震的な変化をもたらした。
大規模言語モデル(LLM)の教師付き微調整と人間からのフィードバックによる強化学習を通じて,モデルが人間の質問に答え,タスクの広いパネルで指示に従うことを示した。
この成功の後、LLMへの関心が高まり、新しいLLMは学界や業界で頻繁な間隔で繁栄し、LSMに焦点を絞ったスタートアップも数多く存在する。
オープンソースLCM(OpenAIのGPT、AnthropicのClaudeなど)は、一般的にオープンソースよりも優れているが、後者の進歩は、パーティを達成するか、特定のタスクでさらに優れているという主張によって急速に進んでいる。
これは研究だけでなくビジネスにも重要な意味を持つ。
本稿では,ChatGPT の1周年を記念して,オープンソース LLM が ChatGPT と同等かそれ以上であると主張するすべてのタスクについて,その成功の概要を概観する。
関連論文リスト
- LLMs are Imperfect, Then What? An Empirical Study on LLM Failures in Software Engineering [38.20696656193963]
非自明なソフトウェアエンジニアリングタスクにおいて,ChatGPTをコーディングアシスタントとして使用した22名の参加者を対象に,観察的研究を行った。
そこで我々は,ChatGPTが失敗した事例,その根本原因,およびユーザが使用する緩和ソリューションを特定した。
論文 参考訳(メタデータ) (2024-11-15T03:29:41Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LLM360: Towards Fully Transparent Open-Source LLMs [89.05970416013403]
LLM360の目標は、すべての人がエンドツーエンドのトレーニングプロセスを透過的かつ再現可能にすることで、オープンで協力的なAI研究を支援することである。
LLM360の最初のステップとして、スクラッチから事前トレーニングされた2つの7BパラメータLSM、AmberとCrystalCoder、トレーニングコード、データ、中間チェックポイント、分析をリリースする。
論文 参考訳(メタデータ) (2023-12-11T17:39:00Z) - An Empirical Study of Instruction-tuning Large Language Models in
Chinese [32.5288378307064]
本論文は,中国語の指導指導用LDMについて,料理本として機能する詳細な実証的研究を行う。
具体的には, LLM ベース, パラメータ効率のよい手法, 命令データ型の影響を系統的に検討する。
また、連鎖データや人間価値アライメントなど、他の要因の影響を調べる実験も行います。
論文 参考訳(メタデータ) (2023-10-11T09:18:09Z) - A Survey of GPT-3 Family Large Language Models Including ChatGPT and
GPT-4 [4.206175795966694]
LLM(Large Language Model)は、モデルのサイズを拡大し、コーパスを事前訓練し、計算することで得られる訓練済み言語モデルの特殊なクラスである。
我々は GPT-3 とその後継 OpenAI モデルである ChatGPT と GPT4 を GPT-3 ファミリー大言語モデル (GLLM) と呼ぶ。
論文 参考訳(メタデータ) (2023-10-04T16:37:05Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。