論文の概要: Octopus v4: Graph of language models
- arxiv url: http://arxiv.org/abs/2404.19296v1
- Date: Tue, 30 Apr 2024 06:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:14:12.838610
- Title: Octopus v4: Graph of language models
- Title(参考訳): Octopus v4: 言語モデルのグラフ
- Authors: Wei Chen, Zhiyuan Li,
- Abstract要約: 言語モデルは広範囲のアプリケーションで有効であるが、最も洗練されたモデルはプロプライエタリであることが多い。
本稿では,textbfmultipleオープンソースモデルを統合するために,テキスト機能トークンを用いた新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.998608318944985
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models have been effective in a wide range of applications, yet the most sophisticated models are often proprietary. For example, GPT-4 by OpenAI and various models by Anthropic are expensive and consume substantial energy. In contrast, the open-source community has produced competitive models, like Llama3. Furthermore, niche-specific smaller language models, such as those tailored for legal, medical or financial tasks, have outperformed their proprietary counterparts. This paper introduces a novel approach that employs \textit{functional tokens} to integrate \textbf{multiple open-source models}, each optimized for particular tasks. Our newly developed Octopus v4 model leverages \textit{functional tokens} to intelligently direct user queries to the most appropriate vertical model and reformat the query to achieve the best performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models, excels in selection and parameter understanding and reformatting. Additionally, we explore the use of graph as a versatile data structure that effectively coordinates multiple open-source models by harnessing the capabilities of the Octopus model and \textit{functional tokens}. Use our open-sourced GitHub (\url{https://www.nexa4ai.com/}) to try Octopus v4 models (\url{https://huggingface.co/NexaAIDev/Octopus-v4}), and contrite to a larger graph of language models. By activating models less than 10B parameters, we achieved SOTA MMLU score of 74.8 among the same level models.
- Abstract(参考訳): 言語モデルは広範囲のアプリケーションで有効であるが、最も洗練されたモデルはプロプライエタリであることが多い。
例えば OpenAI による GPT-4 や Anthropic による様々なモデルは高価であり、かなりのエネルギーを消費する。
対照的に、オープンソースコミュニティは、Llama3のような競合モデルを生み出している。
さらに、法的、医学的、財政的なタスクに適したニッチ固有の小さな言語モデルは、独自の言語よりも優れています。
本稿では,特定のタスクに最適化された \textbf{multiple open-source model} を統合するために, \textit{functional tokens} を利用する新しいアプローチを提案する。
新たに開発したOctopus v4モデルは,‘textit{functional tokens’を利用して,ユーザクエリを最も適切な垂直モデルにインテリジェントにダイレクトし,クエリを再フォーマットして最高のパフォーマンスを実現する。
Octopus v4はOctopus v1、v2、v3モデルの進化であり、選択とパラメータ理解と再フォーマットに優れている。
さらに,Octopus モデルと \textit{functional tokens} の機能を利用して,複数のオープンソースモデルを効果的にコーディネートする汎用データ構造としてのグラフの利用について検討する。
オープンソースのGitHub(\url{https://www.nexa4ai.com/})を使ってOctopus v4モデルを試す(\url{https://huggingface.co/NexaAIDev/Octopus-v4})。
10Bパラメータ未満のモデルを活性化することにより、同じレベルモデルのうち74.8のSOTA MMLUスコアを達成できた。
関連論文リスト
- EVLM: An Efficient Vision-Language Model for Visual Understanding [18.794601813330715]
本稿では,計算コストを最小化する効率的なマルチモーダル言語モデルを提案する。
画像キャプションやビデオキャプションといったタスクにおいて,公開マルチモーダルベンチマークの競合スコアを達成し,良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-07-19T10:09:51Z) - Xmodel-LM Technical Report [13.451816134545163]
Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。
大きさは小さいものの、見事な性能を誇っている。
論文 参考訳(メタデータ) (2024-06-05T02:12:06Z) - Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent [10.998608318944985]
マルチモーダルAIエージェントは、さまざまなタイプのデータから処理および学習する能力によって特徴付けられる。
本稿では,AIエージェントアプリケーション用に設計された関数トークンの概念を取り入れたマルチモーダルモデルを提案する。
我々はこのモデルがRaspberry Piのように制約のある幅広いエッジデバイス上で効率的に動作可能であることを実証した。
論文 参考訳(メタデータ) (2024-04-17T15:07:06Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - Octopus: A Multitask Model and Toolkit for Arabic Natural Language
Generation [23.672484682660595]
我々はアラビア文字からテキストへの変換モデル、すなわちAraT5v2を提案する。
我々の新しいモデルは、拡張シーケンス長2,048トークンを用いて、広範囲で多様なデータに基づいて体系的に訓練されている。
我々はさらに、Pythonベースのパッケージと8つのアラビア生成タスク用に調整されたコマンドラインツールキットであるOctopusを開発し、公開することで、作業を進めています。
論文 参考訳(メタデータ) (2023-10-24T19:06:55Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。