論文の概要: Hermes 3 Technical Report
- arxiv url: http://arxiv.org/abs/2408.11857v1
- Date: Thu, 15 Aug 2024 20:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 13:51:32.166273
- Title: Hermes 3 Technical Report
- Title(参考訳): Hermes 3テクニカルレポート
- Authors: Ryan Teknium, Jeffrey Quesnelle, Chen Guang,
- Abstract要約: インストラクション(または「チャット」)チューニングモデルは、ほとんどの人が大きな言語モデルと対話する主要な方法となっている。
我々は、中立に整合した汎用的インストラクションとツール使用モデルであるHermes 3を提示する。
- 参考スコア(独自算出の注目度): 5.864431388656366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruct (or "chat") tuned models have become the primary way in which most people interact with large language models. As opposed to "base" or "foundation" models, instruct-tuned models are optimized to respond to imperative statements. We present Hermes 3, a neutrally-aligned generalist instruct and tool use model with strong reasoning and creative abilities. Its largest version, Hermes 3 405B, achieves state of the art performance among open weight models on several public benchmarks.
- Abstract(参考訳): インストラクション(または「チャット」)チューニングモデルは、ほとんどの人が大きな言語モデルと対話する主要な方法となっている。
ベース」モデルや「境界」モデルとは対照的に、命令型モデルは命令型ステートメントに応答するように最適化される。
我々は、中立に整合した汎用的インストラクションとツール使用モデルであるHermes 3を提示する。
最大のバージョンであるHermes 3 405Bは、いくつかの公開ベンチマークにおいて、オープンウェイトモデルの間で最先端のパフォーマンスを達成する。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Apple Intelligence Foundation Language Models [109.60033785567484]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。
私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文 参考訳(メタデータ) (2024-07-29T18:38:49Z) - Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - Large Language Models Are Also Good Prototypical Commonsense Reasoners [11.108562540123387]
従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。
我々は、調整されたタスクのための大規模モデルの出力からインスピレーションを受け、半自動で新しいプロンプトのセットを開発した。
より優れた設計のプロンプトによって、ProtoQAのリーダーボードで新しい最先端(SOTA)を達成することができます。
論文 参考訳(メタデータ) (2023-09-22T20:07:24Z) - Better Question-Answering Models on a Budget [0.0]
我々は、Stanford Alpacaデータセットを使用して、FacebookのOPT 1.3B、2.7B、6.7Bモデルの能力を大幅に改善したLoRAモデルのファミリーであるEluwaを紹介する。
ここでは、より小さなモデルを3倍のサイズのモデルとして微調整できることを示す。
論文 参考訳(メタデータ) (2023-04-24T18:06:27Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Which Kind Is Better in Open-domain Multi-turn Dialog,Hierarchical or
Non-hierarchical Models? An Empirical Study [52.66393833841219]
オープンドメインのマルチターンダイアログ生成には,階層モデルと非階層モデルという2つのモデルがある。
本稿では、同じ実験環境において、ほぼすべての代表階層モデルと非階層モデルを測定し、どのモデルが良いかを確認する。
HRANの優れた性能は、主に単語レベルの注意機構に依存している。
論文 参考訳(メタデータ) (2020-08-07T02:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。