論文の概要: A Multi-Encoder Frozen-Decoder Approach for Fine-Tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2501.07818v1
- Date: Tue, 14 Jan 2025 03:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:43.070048
- Title: A Multi-Encoder Frozen-Decoder Approach for Fine-Tuning Large Language Models
- Title(参考訳): 微調整大規模言語モデルに対するマルチエンコーダ凍結デコーダアプローチ
- Authors: Kaustubh D. Dhole,
- Abstract要約: 多様な自然言語タスクからなるマルチタスク構成において,デコーダの凍結の影響について検討する。
AlexaTMモデルの個別設定とマルチタスク設定の両方を微調整して実施した本実験では,凍結デコーダが自然言語出力のタスクに極めて有効であることが判明した。
- 参考スコア(独自算出の注目度): 3.724713116252253
- License:
- Abstract: Among parameter-efficient fine-tuning methods, freezing has emerged as a popular strategy for speeding up training, reducing catastrophic forgetting, and improving downstream performance. We investigate the impact of freezing the decoder in a multi-task setup comprising diverse natural language tasks, aiming to reduce deployment overhead and enhance portability to novel tasks. Our experiments, conducted by fine-tuning both individual and multi-task setups on the AlexaTM model, reveal that freezing decoders is highly effective for tasks with natural language outputs and mitigates catastrophic forgetting in multilingual tasks. However, we find that pairing frozen decoders with a larger model can effectively maintain or even enhance performance in structured and QA tasks, making it a viable strategy for a broader range of task types.
- Abstract(参考訳): パラメータ効率のよい微調整手法の中で、凍結はトレーニングをスピードアップし、破滅的な忘れを減らし、下流のパフォーマンスを向上させるための一般的な戦略として登場した。
各種自然言語タスクからなるマルチタスク構成におけるデコーダの凍結効果について検討し,展開オーバーヘッドを低減し,新規タスクへの移植性を高めることを目的とした。
AlexaTMモデルの個別設定とマルチタスク設定の両方を微調整して実施した実験により,凍結復号器は自然言語出力のタスクに極めて有効であり,多言語タスクにおける破滅的な忘れを軽減できることがわかった。
しかし、より大規模なモデルによる凍結デコーダのペアリングは、構造化タスクやQAタスクのパフォーマンスを効果的に維持または向上できるため、幅広いタスクタイプに対して実行可能な戦略であることが判明した。
関連論文リスト
- Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Prompt Guided Transformer for Multi-Task Dense Prediction [14.815576352301322]
本稿では,Prompt Guided Transformerと呼ばれる軽量なタスク条件モデルを導入し,性能とモデルパラメータを最適化する。
提案手法は,タスク条件のパラメータを少なくしながら,タスク条件付き手法の最先端化を実現し,性能とパラメータサイズの間に大きなバランスを保っている。
論文 参考訳(メタデータ) (2023-07-28T07:25:57Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。