論文の概要: Large Language Models aren't all that you need
- arxiv url: http://arxiv.org/abs/2401.00698v1
- Date: Mon, 1 Jan 2024 08:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:23:09.406907
- Title: Large Language Models aren't all that you need
- Title(参考訳): 大きな言語モデルが必要なのはそれだけではありません
- Authors: Kiran Voderhobli Holla, Chaithanya Kumar, Aryan Singh
- Abstract要約: 本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the architecture and systems built towards solving the
SemEval 2023 Task 2: MultiCoNER II (Multilingual Complex Named Entity
Recognition) [1]. We evaluate two approaches (a) a traditional Conditional
Random Fields model and (b) a Large Language Model (LLM) fine-tuned with a
customized head and compare the two approaches. The novel ideas explored are:
1) Decaying auxiliary loss (with residual) - where we train the model on an
auxiliary task of Coarse-Grained NER and include this task as a part of the
loss function 2) Triplet token blending - where we explore ways of blending the
embeddings of neighboring tokens in the final NER layer prior to prediction 3)
Task-optimal heads - where we explore a variety of custom heads and learning
rates for the final layer of the LLM. We also explore multiple LLMs including
GPT-3 and experiment with a variety of dropout and other hyperparameter
settings before arriving at our final model which achieves micro & macro f1 of
0.85/0.84 (on dev) and 0.67/0.61 on the test data . We show that while
pre-trained LLMs, by themselves, bring about a large improvement in scores as
compared to traditional models, we also demonstrate that tangible improvements
to the Macro-F1 score can be made by augmenting the LLM with additional
feature/loss/model engineering techniques described above.
- Abstract(参考訳): 本稿では,SemEval 2023 Task 2: MultiCoNER II (Multilingual Complex Named Entity Recognition) の解決を目的としたアーキテクチャとシステムについて述べる。
2つのアプローチを評価し
(a)伝統的な条件付ランダムフィールドモデル及び
(b)Large Language Model(LLM)をカスタマイズしたヘッドで微調整し、2つのアプローチを比較する。
探究された斬新なアイデアは
1)補助的損失の減少(残留) - 粗粒NERの補助的タスクでモデルを訓練し、損失関数の一部としてこのタスクを含める。
2)トリプレットトークンブレンド - 予測の前に、ファイナルner層に隣接するトークンの埋め込みをブレンドする方法を検討する。
3) タスク最適化ヘッド(task-optimal head) - llmの最終レイヤのさまざまなカスタムヘッドと学習レートを探索する。
また、gpt-3 を含む複数の llm を探索し、テストデータ上で 0.85/0.84 の micro & macro f1 と 0.67/0.61 を達成する最終モデルに到達する前に、様々なドロップアウトや他のハイパーパラメータの設定を実験します。
事前学習したLLMは,従来のモデルに比べてスコアが大幅に向上する一方で,上述の付加機能/ロス/モデル技術により,マクロF1スコアの具体的な改善が可能であることを示す。
関連論文リスト
- Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - CALRec: Contrastive Alignment of Generative LLMs for Sequential Recommendation [18.986613405565514]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションのために大量のテキストコーパスで事前訓練される。
本稿では,2つの対照的な損失と言語モデリング損失を混合して,事前学習したLLMを2tower方式で微調整する2段階のLLMファインタニングフレームワークを提案する。
我々のモデルは、多くの最先端のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2024-05-03T18:51:19Z) - EntGPT: Linking Generative Large Language Models with Knowledge Bases [9.067856411512427]
大規模言語モデルが実際に正しい出力を生成する能力は、いまだに探索されていない。
我々は3段階のハードプロンピング法を設計し,LLMのED性能を教師付き微調整なしで探究する。
我々は、同様のプロンプトと応答で、インストラクションチューニング(IT)により、知識基盤能力をさらに向上する。
論文 参考訳(メタデータ) (2024-02-09T19:16:27Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。