論文の概要: Large Language Models aren't all that you need
- arxiv url: http://arxiv.org/abs/2401.00698v1
- Date: Mon, 1 Jan 2024 08:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:23:09.406907
- Title: Large Language Models aren't all that you need
- Title(参考訳): 大きな言語モデルが必要なのはそれだけではありません
- Authors: Kiran Voderhobli Holla, Chaithanya Kumar, Aryan Singh
- Abstract要約: 本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the architecture and systems built towards solving the
SemEval 2023 Task 2: MultiCoNER II (Multilingual Complex Named Entity
Recognition) [1]. We evaluate two approaches (a) a traditional Conditional
Random Fields model and (b) a Large Language Model (LLM) fine-tuned with a
customized head and compare the two approaches. The novel ideas explored are:
1) Decaying auxiliary loss (with residual) - where we train the model on an
auxiliary task of Coarse-Grained NER and include this task as a part of the
loss function 2) Triplet token blending - where we explore ways of blending the
embeddings of neighboring tokens in the final NER layer prior to prediction 3)
Task-optimal heads - where we explore a variety of custom heads and learning
rates for the final layer of the LLM. We also explore multiple LLMs including
GPT-3 and experiment with a variety of dropout and other hyperparameter
settings before arriving at our final model which achieves micro & macro f1 of
0.85/0.84 (on dev) and 0.67/0.61 on the test data . We show that while
pre-trained LLMs, by themselves, bring about a large improvement in scores as
compared to traditional models, we also demonstrate that tangible improvements
to the Macro-F1 score can be made by augmenting the LLM with additional
feature/loss/model engineering techniques described above.
- Abstract(参考訳): 本稿では,SemEval 2023 Task 2: MultiCoNER II (Multilingual Complex Named Entity Recognition) の解決を目的としたアーキテクチャとシステムについて述べる。
2つのアプローチを評価し
(a)伝統的な条件付ランダムフィールドモデル及び
(b)Large Language Model(LLM)をカスタマイズしたヘッドで微調整し、2つのアプローチを比較する。
探究された斬新なアイデアは
1)補助的損失の減少(残留) - 粗粒NERの補助的タスクでモデルを訓練し、損失関数の一部としてこのタスクを含める。
2)トリプレットトークンブレンド - 予測の前に、ファイナルner層に隣接するトークンの埋め込みをブレンドする方法を検討する。
3) タスク最適化ヘッド(task-optimal head) - llmの最終レイヤのさまざまなカスタムヘッドと学習レートを探索する。
また、gpt-3 を含む複数の llm を探索し、テストデータ上で 0.85/0.84 の micro & macro f1 と 0.67/0.61 を達成する最終モデルに到達する前に、様々なドロップアウトや他のハイパーパラメータの設定を実験します。
事前学習したLLMは,従来のモデルに比べてスコアが大幅に向上する一方で,上述の付加機能/ロス/モデル技術により,マクロF1スコアの具体的な改善が可能であることを示す。
関連論文リスト
- EntGPT: Linking Generative Large Language Models with Knowledge Bases [9.067856411512427]
大規模言語モデルが実際に正しい出力を生成する能力は、いまだに探索されていない。
我々は3段階のハードプロンピング法を設計し,LLMのED性能を教師付き微調整なしで探究する。
我々は、同様のプロンプトと応答で、インストラクションチューニング(IT)により、知識基盤能力をさらに向上する。
論文 参考訳(メタデータ) (2024-02-09T19:16:27Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - End-to-End Automatic Speech Recognition with Deep Mutual Learning [29.925641799136663]
この論文は、エンドツーエンドASRモデルに深層相互学習を適用する最初のものである。
DMLでは、トレーニングプロセス全体を通して互いに模倣することで、複数のモデルを同時および共同でトレーニングします。
従来の学習法と比較して,dmlは両方のモデリング設定のasr性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T13:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。