論文の概要: LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits
Siamese-BLOOM
- arxiv url: http://arxiv.org/abs/2305.06404v1
- Date: Wed, 10 May 2023 18:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:53:22.055144
- Title: LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits
Siamese-BLOOM
- Title(参考訳): LACoS-BLOOM:8ビットのSiamese-BLOOMにおける相対目標を用いた低ランク適応
- Authors: Wen-Yu Hua and Brian Williams and Davood Shamsi
- Abstract要約: 意味的に意味のある単語の埋め込みを生成するために最適化された多言語大言語モデルである8ビットのSiamese-BLOOMを提案する。
文類似度分類のために,スケーラブルアダプタ(LoRA)と8ビットAdamでBLOOMを微調整する。
実験の結果,LACoS-BLOOMからの学習した埋め込みの質は,モデルパラメータの数とラベルなしトレーニングデータの量に比例することがわかった。
- 参考スコア(独自算出の注目度): 2.9327503320877457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text embeddings are useful features for several NLP applications, such as
sentence similarity, text clustering, and semantic search. In this paper, we
present a Low-rank Adaptation with a Contrastive objective on top of 8-bit
Siamese-BLOOM, a multilingual large language model optimized to produce
semantically meaningful word embeddings. The innovation is threefold. First, we
cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable
adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification.
Third, we apply a Siamese architecture on BLOOM model with a contrastive
objective to ease the multi-lingual labeled data scarcity. The experiment
results show the quality of learned embeddings from LACoS-BLOOM is proportional
to the number of model parameters and the amount of unlabeled training data.
With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1
billion parameters end-to-end on a single GPU machine with 32GB memory.
Compared to previous solution Sentence-BERT, we achieve significant improvement
on both English and multi-lingual STS tasks.
- Abstract(参考訳): テキスト埋め込みは、文の類似性、テキストクラスタリング、セマンティック検索など、いくつかのNLPアプリケーションで有用な機能である。
本稿では,意味的に意味のある単語埋め込みを生成するために最適化された多言語大言語モデルである8ビットシアームブロム上で,対照的な目的を持つ低ランク適応を提案する。
イノベーションは3倍です。
まず、BLOOM重みを8ビット値にキャストした。
第2に,文類似度分類のためのスケーラブルアダプタ(LoRA)と8ビットAdamオプティマイザを用いてBLOOMを微調整する。
第3に,複数言語でラベル付けされたデータ不足を緩和するために,コントラスト目的のBLOOMモデルにSiameseアーキテクチャを適用した。
実験の結果,LACoS-BLOOMからの学習した埋め込みの質は,モデルパラメータの数とラベルなしトレーニングデータの量に比例することがわかった。
パラメータ効率の良い微調整設計により、32GBメモリを持つ1台のGPUマシンでBLOOM 7.10億のパラメータをエンドツーエンドで実行することができる。
従来のSentence-BERTに比べて、英語と多言語STSのタスクにおいて大幅な改善が達成されている。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA [3.195234044113248]
本稿では,新しいメタLLaMA-3モデル,LLaMAntino-3-ANITA-8B-Inst-DPO-ITAに基づくLarge Language Model(LLM)を紹介する。
英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。
動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使用されている。
論文 参考訳(メタデータ) (2024-05-11T22:02:55Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Mini Minds: Exploring Bebeshka and Zlata Baby Models [3.558894829990311]
本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。
評価のために提出された2つの小型言語モデル(LM)を紹介する。
ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現している。
論文 参考訳(メタデータ) (2023-11-06T16:01:10Z) - Binary and Ternary Natural Language Generation [24.295815261826153]
三項ニューラルネットワークと二項ニューラルネットワークは、乗算不要な計算を可能にする。
完全精度ネットワーク上では、複数の桁の効率向上を約束する。
しかし、そのようなネットワークの最適化は非常に困難であることが証明されている。
要約および機械翻訳の下流タスクにおいて、第1次および第2次変換器モデルを示す。
論文 参考訳(メタデータ) (2023-06-02T18:01:02Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - Jam or Cream First? Modeling Ambiguity in Neural Machine Translation
with SCONES [10.785577504399077]
本稿では,ソフトマックスのアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。
SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。
SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルのトレーニングに利用できることを示す。
論文 参考訳(メタデータ) (2022-05-02T07:51:37Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。